开yun体育网并通过“三步走”告成终显著推感性能的优化-开云「中国」Kaiyun·官方网站-登录入口
跟着东说念主工智能本事的迅速发展,大模子参数目激增。MoE 疏淡大模子因能在提高容量的同期保握视察诡计量,成为了当下的征询热门,但推理时的性能瓶颈仍制约着其进一步发展。在此布景下,中国科学本事大学东说念主工智能与数据科学学院推行院长张燕咏指引团队,在中国科学本事大学 鲲鹏昇腾科教立异超卓中心的算力复旧下开yun体育网,告成研发出了基于各人采选漫衍推断的各人负载平衡和all2all通讯平衡框架。
该框架的征询奋勉于于陆续两浩劫题——各人负载不均及较大的诡计通讯支出,并通过“三步走”告成终显著推感性能的优化。为了让模子在并行推理时能更合理地分拨资源,团队当先从各人采选的公法脱手,通过分析相同 token 在 MoE 层采选各人的特征并归类,告成推断出token的各人采选旅途偏好。
接着即是陆续推理历程中的各人负载不平衡问题。团队依据token对各人采选偏好的推断适度,精确判断出各人动态访谒的频率和进击性,通过复制高频各人、替换非进击各人的花式终显著负载平衡。其中昇腾推理引擎MindIE提供的性能分析器具可终了性能数据的可视化,在及时监测各人负载、统计访谒频率等方面提供数据参考,发扬了进击作用。
缩小漫衍式诡计的通讯时延是第三步。团队阐发诡计节点上的数据对各人采选的推断适度,将各人提前部署到对应的节点上,并联接需宽阔密相助的各人放在吞并诡计单位,让数据与所需各人在物理位置上更接近,同期结合昇腾384超节点吸收的高速总线互联本事,最终大幅缩小了跨节点和跨诡计单位的通讯铺张。
伸开剩余38%在系列本事讲理下,这次神色恶果显贵。基于该立异框架,在多尺寸、多结构的 MoE 模子中,推理时分、all2all 时分、MoE 层时分及负载不中分数较现存主流有贪图提高超 30%;多卡复杂场景里,前三项主义提高 30%,推理时分提高 20%。
本次神色的恶果,为树立者借助昇腾本事优化 MoE 疏淡大模子推感性能提供了宝贵模仿,将加快其在各限制的落地诓骗。改日,中国科学本事大学 鲲鹏昇腾科教立异超卓中心将握续深远产学研协同立异,依托昇腾软硬件平台,在前沿AI模子优化限制握续讲理,为自主立异东说念主工智能政策与数字经济发展孝敬力量。
发布于:天津市