翟恩南 工程师

1721633020746672.png

讲者简介:翟恩南,阿里云网络研究负责人。2015 年于耶鲁大学计算机系获博士学位,随后担任耶鲁大学研究型助理教授,2018 年加入阿里巴巴。研究领域包括计算机网络、分布式系统等,先后在这些方向的国际顶级会议如 SIGCOMMNSDISOSP 等累计发表 60 余篇论文(其中 SIGCOMM 13篇)。多次担任 SIGCOMMNSDI 等国际顶级会议程序委员会委员。现任 CCF 互联网专委常务委员。获通信学会技术发明一等奖一次。

报告题目:面向大模型时代的万卡集群互联研究与关键技术

报告摘要:拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而,大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率,我们设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构,HPN 架构支持阿里云的大模型训练超过8个月,数据显示使用 HPN 的大模型训练吞吐量比传统数据中心网络高出平均 14.9%;此外,我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux,在千卡规模生产数据下的实验与已有工作 SincroniaTACCL CASSINI 等对比,Crux GPU 计算利用率平均提高到多达 23%。此两项工作均被网络顶会 SIGCOMM'24 接收


你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.