Ouyang, Mark, and Fengrui Zhang. “CUDA-Optimized Inference Engine for Large-Scale Language Models: Design, Kernels, and Latency Improvements”. Journal of Theory and Practice in Engineering and Technology 2, no. 5 (September 4, 2025): 1–9. Accessed July 12, 2026. https://woodyinternational.com/index.php/jtpet/article/view/291.