Ouyang, M., & Zhang, F. (2025). CUDA-Optimized Inference Engine for Large-Scale Language Models: Design, Kernels, and Latency Improvements. Journal of Theory and Practice in Engineering and Technology, 2(5), 1–9. Retrieved from https://woodyinternational.com/index.php/jtpet/article/view/291