Ouyang, Mark, and Fengrui Zhang. 2025. “CUDA-Optimized Inference Engine for Large-Scale Language Models: Design, Kernels, and Latency Improvements”. Journal of Theory and Practice in Engineering and Technology 2 (5):1-9. https://woodyinternational.com/index.php/jtpet/article/view/291.