张献伟

副教授

联系邮箱: zhangxw79@mail.sysu.edu.cn

联系地址: 超算中心 - 422

个人主页: https://xianweiz.github.io/

教师简介: 

张献伟,中山大学计算机学院副教授(2020-),博士/硕士导师。于美国匹兹堡大学(University of Pittsburgh)获得计算机科学博士学位(Ph.D.,2017),曾任职于美国AMD和NVIDIA公司(2017-2020,2016)。

在学术界和产业界长期从事计算机系统、高性能计算及智能计算领域研究,包括GPU、编程编译、软硬件协同设计、应用支撑平台等。作为负责人主持国家重点研发课题、国家自然科学基金、CCF产研基金、企业合作等项目10余项。研究成果论文发表在SC、DAC、WWW等会议,完成多个技术转化、论文专利和开源工具等,获得广东省“科学技术进步特等奖”(参与)、中国科协“科技智库青年人才计划”、AMD Spotlight Award、ISLPED最佳论文奖等奖项荣誉。教学方面,荣获中国计算机教育大会优秀教学案例一等奖、优秀论文一等奖、全国大学生系统能力大赛一等奖优秀指导教师等。

【Recruiting】招收硕博研究生,也欢迎有兴趣的本科生/Intern加入,详见☞ <招生FAQs>。

ARChitecture and SYStem Upscaling @ SYSU

✰ NEW ✰: Postdoctoral positions are currently open, feel free to contact for more details.

研究领域: 

计算机系统结构(GPU,Memory)

编程及编译优化(Compilation)

高性能及智能计算(HPC,Intelligent Computing)

软硬件协同设计(SW/HW Co-design)

教育背景: 

2011.08 - 2017.08,美国匹兹堡大学(University of Pittsburgh),计算机科学,博士

2007.09 - 2011.07,西北工业大学,软件工程,学士

工作经历: 

2020.10 - 今,中山大学 · 计算机学院,副教授

2017.08 - 2020.09,AMD公司 · Research/RTG,研究员/工程师

2016.05 - 2016.08,NVIDIA公司 · Research,实习研究员

海外经历: 

2011.8 - 2020.9: Pittsburgh, PA (@UPitt) --> Seattle, WA (@AMD) --> Austin, TX (@AMD/Nvidia)

获奖及荣誉: 

科技智库青年人才计划,中国科协,2022

技术杰出贡献奖(Spotlight Award),AMD Inc.,2019

优秀博士全额奖学金(Andrew Mellon Fellowship), UPitt, 2016

最佳论文奖(Best Paper Award), ISLPED Conference, 2013

科研项目: 

超算互联网全局存储架构与数据资源管理,国家重点研发计划课题,2023 - 2026,主持

GPU软件层资源管理,国家自然科学基金面上项目,2025 - 2028,主持

GPU软硬件协同优化,国家自然科学基金青年项目,2022 - 2024,主持

大模型GPU推理加速,CCF-腾讯犀牛鸟基金,2024 - 2025,主持

面向高性能计算的容器镜像编译,CCF-华为胡杨林基金,2024 - 2025,主持

基于机器学习的编译优化,CCF-飞腾基金,2022 - 2024,主持

中日韩超算中心数据共享平台,NSFC国际合作A3前瞻计划项目,2024 - 2029,核心成员

主要学术兼职: 

TPC - CCGrid’2025, IJCNN’2025, NAS'2024, NPC'2025/2024, HiPC‘2025/2024/2023/2022, ICPADS'2022

ERC - MICRO (IEEE/ACM Int'l Sym. on Microarchitecture), 2020

TPC - ICCD (IEEE Int'l Conf. on Computer Design), 2020, 2019, 2018

TPC - SC'2025 Research/ACM Student Research Competition Posters, 2025

执行委员 - 中国计算机学会•高性能计算专业委员会/信息存储专业委员会,2024-

技术委员会 - 全国大学生计算机系统能力大赛•编译系统设计赛(华为毕昇杯),2025,2024

技术委员会 - 全国大学生计算机系统能力大赛•智能计算创新设计赛(先导杯),2025

教授课程: 

Yat Compilation Course / Your AI Time Cool Compiler (YatCC), 详见 yatcc-ai.com

课程:

编译原理/编译器构造实验(Ug,25s/24s/23s/22s/21s)

计算机体系结构(Ug,22f)、高级计算机体系结构(Gr,24f/23f/22f/21f)

奖项/项目:

2025 · 中国计算机教育大会优秀教学案例特等奖(“YatCC-AI:基于大模型与国产超算的在线LLVM编译实践教学”) · 2/25
2025 · 中山大学第十二届校级本科教学成果特等奖("超算筑基•AI深嵌•产教共研——面向战略新兴产业的...") · 3/9
2025 · 中山大学第二届校级研究生教学成果特等奖("计算•AI+X•计算机类研究生培养模式探索与实践") · 6/12
2025 · 中山大学第十三届教师教学竞赛二等奖("YatCC-AI:超算+DeepSeek,开启智能编译教学实践") · 1/1
2025 · 中山大学教学质量与教学改革工程项目("融入大语言模型的LLVM编译实践教学") · 1/1
2024 · 教育部编译课程虚拟教研室最佳组织奖(“华为毕昇杯”全国大学生编译系统设计赛技术委员会委员) · 1/1
2024 · 中国计算机教育大会优秀教学案例一等奖(“基于友好开发体验的LLVM编译实践教学”) · 1/10
2023 · 计算机系统能力大赛“华为毕昇杯”编译系统设计赛全国一等奖(优秀指导教师) · 指导1/1
2022 · 中国计算机教育大会优秀论文一等奖(“基于Clang/LLVM构建编译实践全局观”) · 通讯1/1

代表性论著: 

(指导学生, ^通讯作者)

[SC'2025, CCF-A]. Y. Gu, H. Chen, X. Chen, J. Du, Z. Chen, N. Xiao, X. Zhang^ and Y. Lu^. coMtainer: Compilation-assisted HPC Container Images with Enhanced Adaptability 

[SC'2025, CCF-A]. T. Guo, X. Zhang^, J. Du, X. Zhang, Z. Chen, N. Xiao and Y. Lu. gLLM: Global Balanced Pipeline Parallelism Systems for Distributed LLMs Serving with Token Throttling

[SC'2025, CCF-A]. H. Huang, J. Xie, G. Feng, X. Zhang, D. Huang, Z. Chen and Y. Lu^. HStencil: Matrix-Vector Stencil Computation with Interleaved Outer Product and MLA

[DAC'2025, CCF-A]. X. Huang, J. Du, N. Xiao and X. Zhang^. PaSK: Cold Start Mitigation for Inference with Proactive and Selective Kernel Loading on GPUs 

[DAC'2025, CCF-A]. K. Wu, Z. Lin, M. Xi, Z. Zheng, W. Pan, X. Zhang^ and Y. Lu^. GoPTX: Fine-grained GPU Kernel Fusion by PTX-level Instruction Flow Weaving

[WWW'2025, CCF-A]. Y. Gu, C. Chen, J. Du, X. Zhang and X. Zhang^. ORFA: Exploring WebAssembly as a Turing Complete Query Language for Web APIs (Oral)

[DAC'2024, CCF-A] T. Guo, X. Huang, K. Wu, X. Zhang^ and N. Xiao.  SMILE: LLC-based Shared Memory Expansion to Improve GPU Thread Level Parallelism

[ICCD'2023, CCF-B] Z. Lin, Z. Mo, X. Huang, X. Zhang^ and Y. Lu. KeSCo: Compiler-based Kernel Scheduling for Multi-task GPU Applications

[LCTES'2022, CCF-B] T. Ge, Z. Mo, K. Wu, X. Zhang^ and Y. Lu. RollBin: Reducing Code-size via Loop Rerolling at Binary Level

[HPCA'2018, CCF-A] A. Gutierrez, B. Beckmann, et al,. Lost in Abstraction: Pitfalls of Analyzing GPUs at the Intermediate Language Level

[HPCA'2016, CCF-A] X. Zhang, Y. Zhang, B. Childers and J. Yang. Restore Truncation for Performance Improvement in Future DRAM Systems