张献伟

副教授

联系邮箱： zhangxw79@mail.sysu.edu.cn

联系地址： 超算中心 - 422

教师简介:

张献伟，中山大学计算机学院副教授（2020-）、博士生导师、逸仙学者。于美国匹兹堡大学（University of Pittsburgh）获得计算机科学博士学位（Ph.D.，2017），曾任职于美国AMD和NVIDIA公司（2017-2020，2016）。

在学术界、产业界和专业机构长期从事计算机系统、高性能计算和智能计算领域研究及实践，包括GPU、编程编译、软硬件协同设计、应用框架平台等。作为负责人（PI）主持国家重点研发课题、国家自然科学基金、产研基金、企业合作等项目10余项。研究成果论文发表在ASPLOS/SC/HPCA、NeurIPS/AAAI/WWW等顶级会议，完成多个技术转化和开源工具等，获得广东省“科学技术进步特等奖”（参与）、中国科协“科技智库青年人才计划”、AMD Spotlight Award、ISLPED最佳论文奖（Best Paper）等奖项荣誉。教学方面，荣获广东省教学成果特等奖、教育部教师人工智能应用推荐案例、全国大学生系统能力大赛一等奖优秀指导教师等。

【Recruiting】招收博士、硕士研究生，也欢迎有兴趣的本科生/Intern加入，详见☞ <招生FAQs>。

ARChitecture and SYStem Upscaling @ SYSU, 详见☞ <arcSYSu-Lab主页>。

✰ NEW ✰: Postdoctoral positions are currently open, please feel free to contact for more details.

研究领域:

高性能及智能计算（HPC，Intelligent Computing）

编程及编译优化（Compilation, CodeOpt）

软硬件协同设计（SW/HW Co-design）

计算机系统结构（Architecture and System）

教育背景:

2011.08 - 2017.08，美国匹兹堡大学（University of Pittsburgh），计算机科学，博士

2007.09 - 2011.07，西北工业大学，软件工程，学士

工作经历:

2020.10 - 今，中山大学 · 计算机学院，副教授

2025.03 - 今，国家部委机构，挂职/借调

2017.08 - 2020.09，AMD公司 · Research/RTG，研究员/工程师

海外经历:

2011.8 - 2020.9: Pittsburgh, PA (@UPitt) --> Seattle, WA (@AMD) --> Austin, TX (@AMD/Nvidia)

获奖及荣誉:

优秀教学成果奖（本科类）特等奖，广东省教育厅，2025

科技智库青年人才计划，中国科协，2022

技术杰出贡献奖（Spotlight Award），AMD Inc.，2019

优秀博士全额奖学金（Andrew Mellon Fellowship）, UPitt, 2016

最佳论文奖（Best Paper Award）, ISLPED Conference, 2013

科研项目:

超算互联网全局存储架构与数据资源管理，国家重点研发计划课题，2023 - 2026，主持

应用驱动的细粒度GPU资源管理优化，国家自然科学基金面上项目，2025 - 2028，主持

面向通用计算的GPU存储软硬件协同优化技术研究，国家自然科学基金青年项目，2022 - 2024，主持

GPU编译调优中间件，粤港澳大湾区国创中心^®合作项目，2026，主持

基于pytorch框架的推荐模型训练性能优化，腾讯^®合作项目，2025 - 2026，主持

大模型基础架构设计优化，腾讯^®合作项目，2025 - 2026，主持

大模型GPU推理加速，CCF-腾讯^®犀牛鸟基金，2024 - 2025，主持

面向高性能计算的容器镜像编译，CCF-华为^®胡杨林基金，2024 - 2025，主持

基于机器学习的编译优化，CCF-飞腾^®基金，2022 - 2024，主持

中日韩超算中心数据共享平台，NSFC国际合作A3前瞻计划项目，2024 - 2029，核心成员

主要学术兼职:

TPC - ISC (The Int'l Supercomputing Conf.), 2026

TPC - SC Research/ACM Student Research Competition Posters, 2025

TPC - CCGrid'2025, IJCNN'2025, NAS'2024, NPC'2025/2024, HiPC'2025/2024/2023/2022, ICPADS'2025/2022

ERC - MICRO (IEEE/ACM Int'l Sym. on Microarchitecture), 2020

TPC - ICCD (IEEE Int'l Conf. on Computer Design), 2020/2019/2018

执行委员 - 中国计算机学会（CCF）•高性能计算专业委员会（2024-）/信息存储专业委员会（2024-）/系统软件专业委员会（2025-）

技术委员会 - 全国大学生计算机系统能力大赛•编译系统设计赛（华为毕昇杯），2026/2025/2024

技术委员会 - 全国大学生计算机系统能力大赛•智能计算创新设计赛（先导杯），2025

教授课程:

Yat Compilation Course / Your AI Time Cool Compiler (YatCC), 详见☞ yatcc-ai.com

课程：

编译原理/编译器构造实验（Ug，26s/25s/24s/23s/22s/21s）

计算机体系结构（Ug，22f）、高级计算机体系结构（Gr，24f/23f/22f/21f）

奖项/项目：

2025 · 广东省优秀教学成果奖（本科类）特等奖（“超算筑基•AI深嵌•产教共研——创新型计算机人才培养探索与实践”） · 3/10
2025 · 广东省优秀教学成果奖（研究生类）一等奖（“并行计算•AI+创新型计算机研究生培养体系建设与实践”） · 6/10
2025 · 教育部教师人工智能应用培育案例国家级推荐（“YatCC-AI: 基于国产超算和大模型的智能化计算机系统教学实践平台”） · 1/1
2025 · 中国计算机教育大会CECC优秀教学案例特等奖（“基于国产超算和大模型的智能化编译系统实践教学”） · 1/7
2025 · 中国计算机教育大会CCEC优秀教学案例特等奖（“YatCC-AI：基于大模型与国产超算的在线LLVM编译实践教学”） · 2/25
2025 · 中山大学第十二届校级本科教学成果特等奖（"超算筑基•AI深嵌•产教共研——面向战略新兴产业的..."） · 3/9
2025 · 中山大学第二届校级研究生教学成果特等奖（"计算•AI+X•计算机类研究生培养模式探索与实践"） · 6/12
2025 · 中山大学第十三届教师教学竞赛二等奖（"YatCC-AI：超算+DeepSeek，开启智能编译教学实践"） · 1/1
2025 · 中山大学教学质量与教学改革工程项目（"融入大语言模型的LLVM编译实践教学"） · 1/1
2024 · 教育部编译课程虚拟教研室最佳组织奖（“华为毕昇杯”全国大学生编译系统设计赛技术委员会委员） · 1/1
2024 · 中国计算机教育大会CCEC优秀教学案例一等奖（“基于友好开发体验的LLVM编译实践教学”） · 1/10
2023 · 计算机系统能力大赛“华为毕昇杯”编译系统设计赛全国一等奖（优秀指导教师） · 指导1/1
2022 · 中国计算机教育大会优秀论文一等奖（“基于Clang/LLVM构建编译实践全局观”） · 通讯1/1

代表性论著:

(指导学生, ^通讯作者）☞ <Full List>

[ASPLOS'2026, CCF-A]. Z. Lin, H. Xu, G. Chen, Z. Chen, Y. Lu^ and X. Zhang^. Bullet: Boosting GPU Utilization for LLM Serving via Dynamic Spatial-Temporal Orchestration

[AAAI'2026, CCF-A]. X. Huang, F. Li, R. Hu, J. Zhang, Y. Peng, Y. Zhou, F. Chen and X. Zhang^. FusedRec: Fused Embedding Communication for Distributed Recommendation Training on GPUs

[TACO'2025, CCF-A]. W. Pan, Z. Lin, J. Du^ and X. Zhang^. HuntKTm: Hybrid Scheduling and Automatic Management for Efficient Kernel Execution on Modern GPUs

[SC'2025, CCF-A]. Y. Gu, H. Chen, X. Chen, J. Du, Z. Chen, N. Xiao^, X. Zhang^ and Y. Lu. coMtainer: Compilation-assisted HPC Container Images with Enhanced Adaptability

[SC'2025, CCF-A]. T. Guo, X. Zhang^, J. Du, Z. Chen^, N. Xiao and Y. Lu. gLLM: Global Balanced Pipeline Parallelism Systems for Distributed LLMs Serving with Token Throttling

[SC'2025, CCF-A]. H. Huang, J. Xie, G. Feng, X. Zhang, D. Huang, Z. Chen and Y. Lu^. HStencil: Matrix-Vector Stencil Computation with Interleaved Outer Product and MLA

[NeuIPS'2025, CCF-A]. H. Xu, T. Guo and X. Zhang^. DynaPipe: Dynamic Layer Redistribution for Efficient Serving of LLMs with Pipeline Parallelism

[DAC'2025, CCF-A]. X. Huang, J. Du, N. Xiao and X. Zhang^. PaSK: Cold Start Mitigation for Inference with Proactive and Selective Kernel Loading on GPUs

[DAC'2025, CCF-A]. K. Wu, Z. Lin, M. Xi, Z. Zheng, W. Pan, X. Zhang^ and Y. Lu^. GoPTX: Fine-grained GPU Kernel Fusion by PTX-level Instruction Flow Weaving

[WWW'2025, CCF-A]. Y. Gu, C. Chen, J. Du, X. Zhang and X. Zhang^. ORFA: Exploring WebAssembly as a Turing Complete Query Language for Web APIs (Oral)

[DAC'2024, CCF-A] T. Guo, X. Huang, K. Wu, X. Zhang^ and N. Xiao. SMILE: LLC-based Shared Memory Expansion to Improve GPU Thread Level Parallelism

[ICCD'2023, CCF-B] Z. Lin, Z. Mo, X. Huang, X. Zhang^ and Y. Lu. KeSCo: Compiler-based Kernel Scheduling for Multi-task GPU Applications

[LCTES'2022, CCF-B] T. Ge, Z. Mo, K. Wu, X. Zhang^ and Y. Lu. RollBin: Reducing Code-size via Loop Rerolling at Binary Level

[HPCA'2018, CCF-A] A. Gutierrez, B. Beckmann, et al,. Lost in Abstraction: Pitfalls of Analyzing GPUs at the Intermediate Language Level

[HPCA'2016, CCF-A] X. Zhang, Y. Zhang, B. Childers and J. Yang. Restore Truncation for Performance Improvement in Future DRAM Systems

师资队伍

张献伟