[1]

Ouyang, M. and Zhang, F. 2025. CUDA-Optimized Inference Engine for Large-Scale Language Models: Design, Kernels, and Latency Improvements. Journal of Theory and Practice in Engineering and Technology. 2, 5 (Sep. 2025), 1–9.