Ouyang, Mark, and Fengrui Zhang. “CUDA-Optimized Inference Engine for Large-Scale Language Models: Design, Kernels, and Latency Improvements”. Journal of Theory and Practice in Engineering and Technology, vol. 2, no. 5, Sept. 2025, pp. 1-9, https://woodyinternational.com/index.php/jtpet/article/view/291.