11月3日,寒武纪(688256)发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的CampiconNeuware软件栈。
基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。思元370也是国内第一颗支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
同时,寒武纪全新升级了CampiconNeuware软件栈,新增推理加速引擎MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
新一代智能处理器架构
寒武纪智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
值得强调的是,寒武纪坚持自研智能芯片架构、指令集,是全球范围内在该技术方向积累最为深厚的公司之一。MagicMind是寒武纪全新打造的推理加速引擎,也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
此次发布中,两款基于思元370的加速卡正式亮相:高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。与上一代产品相比,370系列加速卡在性能、能效方面都有更为卓越的表现。例如,对标准ResNet-50v1进行软件定制优化后,MLU370-X4加速卡性能高达30204fps。
据了解,此次寒武纪发布了两款加速卡,未来还将推出更多基于思元370的产品。
产品进入早期销售阶段
从云端推理思元270、边缘推理思元220、云端训练思元290,到最新发布的推训一体思元370,寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品。此次发布的256TOPS算力的思元370主要面向中高端推训场景,与主要面向训练的512TOPS高端产品思元290形成协同,共同为客户提供全功能、全场景的智能算力。
思元370在2020年三季度流片,相关加速卡产品于2021年二季度陆续送测客户。目前,部分客户已完成测试、导入,产品进入早期销售阶段。
阿里云基础设施异构计算负责人张伟丰博士表示,阿里云基础设施异构计算团队已经完成了思元370的测试及导入,结合阿里云震旦异构计算加速平台完成了ODLA的接口适配,总体性能表现超出预期。百度异构计算架构师黎世勇表示,自2018年起,百度与寒武纪展开了多维度的软硬件协作,思元100等产品服务百度语音合成等多种业务场景。
日前寒武纪发布了2021第三季度业绩报告。2021年前三季度,寒武纪营业收入2.22亿元,同比增长41.19%;研发投入合计7.04亿元,同比增加62.62%,研发投入占营业收入的比例为316.72%,同比增加41.74%。
资料显示,寒武纪自成立以来一直专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。寒武纪的主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售,以及为客户提供丰富的芯片产品与系统软件解决方案。目前,寒武纪的主要产品线包括云端产品线、边缘产品线、处理器IP授权及软件。