欧洲足球比赛

您当前位置: 欧洲足球比赛  >  科学研究  >  学术动态  >  正文

学术动态

欧洲足球比赛-欧洲足球-欧洲杯直播 鼎新讲座80周年校庆系列——郑纬民院士讲座

发布日期:2025-10-14 发布人: 点击量:

讲座题目:人工智能大模型推理架构的技术挑战

讲座嘉宾:郑纬民 中国工程院院士 清华大学教授

讲座时间:20251018日(星期六) 9:00

讲座地点:欧洲足球比赛-欧洲足球-欧洲杯直播 中心校区王湘浩B108报告厅

嘉宾简介:

郑纬民,清华大学计算机系教授,中国工程院院士。长期从事高性能计算机体系结构、并行算法和系统研究。提出可扩展的存储系统结构及轻量并行的扩展机制,发展了存储系统扩展性理论与方法。在国内率先研制并成功应用集群架构高性能计算机。在国产神威太湖之光上研制的极大规模天气预报应用获得ACM Gordon Bell奖。曾获国家科技进步一等奖1项、二等奖2项、国家技术发明二等奖1 项,何梁何利科技进步奖,获得首届中国存储终身成就奖。

讲座摘要:

本报告介绍了大语言模型推理过程中的关键技术挑战与架构解决方案。主要内容包括:1. GPU内存与带宽挑战:以DeepSeek-R16710亿参数)为例,指出单设备需至少671GB显存(FP8精度),带宽需求高达740GB/s,强调GPU-centric架构的局限性。2. KV-Cache存储与传输瓶颈:每个token对应的KV-Cache可达数十KB,大规模服务中每日需处理数百TB甚至PB级缓存数据,对存储系统和传输速度提出极高要求。3. Mooncake架构:以存储换计算:支持KVCache复用,显著减少重复计算,提升推理效率。已应用于Kimi、阿里、蚂蚁集团等,并获USENIX FAST最佳论文奖。4.KTransformersCPU-GPU异构协同推理:支持在低配置设备(如单CPU+GPU)上运行千亿级模型(如DeepSeek-R1),通过主机内存与显存协同、注意力层与MoE层分离,降低部署门槛,推动AI PC落地。5.行业应用与开源生态:MooncakevLLMSGLang等推理引擎深度集成,支持多硬件平台(NVIDIA、昇腾),已在科大讯飞、阿里巴巴等企业级场景中验证高效性能。通过以存储换计算Mooncake)和以存储增强计算KTransformers)两大策略,显著降低LLM推理成本与硬件门槛,推动大模型技术向普及化、个人化发展,标志着AI PC从概念走向现实。

主办单位:欧洲足球比赛-欧洲足球-欧洲杯直播 科学技术协会  

承办单位:欧洲足球比赛-欧洲足球-欧洲杯直播 欧洲足球比赛

欧洲足球比赛-欧洲足球-欧洲杯直播 软件欧洲足球比赛

符号计算与知识工程教育部重点实验室

仿真技术教育部重点实验室

网络技术及应用软件教育部工程研究中心