深度学习领域的技术性突破,使得人工智能的相关技术得到快速发展,同时伴随大规模并行计算能力的高要求出现,CPU和传统计算架构已经无法满足对于并行计算能力的需求,具备特殊定制特点以及更为灵活智能的AI芯片由此起步。
近年来,AI技术不断取得突破性进展,AI芯片作为承载其技术的基础硬件,拥有巨大的产业价值和战略地位。现阶段,英伟达领跑全球AI芯片市场,在其之后,谷歌、英特尔、赛灵思更是占据了一定的市场份额。
而国内的百度、阿里等企业也瞄准该领域,纷纷加入AI造芯阵营。此外,技术落地、市场需求以及资本的推动更是催生了国内一批独角兽企业,如聚焦云端训练领域的寒武纪、发力消费电子端的思必驰、专注云端视觉识别版块的依图科技等,都相继推出新品,在产品上持续取得突破。目前,AI芯片发展尚处于初级阶段,因此无论是在科研还是产业应用上,都有着巨大的创新空间。
在传统芯片领域与国际巨头相差较多的情况下,国产AI芯片被寄予期望实现弯道超车。由国内领先的半导体电子信息媒体芯师爷举办的第三届“硬核中国芯”,汇聚了百余家中国半导体芯片企业,活动期间,芯师爷特邀请了清微智能和鲲云科技两家国产AI芯片企业,对当下AI芯片的发展现状、产业落地等话题,进行深入探讨交流。
高歌猛进的国产AI芯片企业
据VerifiedMarket数据显示,2020年AI芯片市值为73.7亿美元,预计到2028年将达到1098.3亿美元。在广阔的市场前景下,不仅国外巨头争相发力,国内AI芯片企业也在加速布局,相继秀出创新成果。
清微智能CTO 欧阳鹏
清微智能最新量产的TWS主控芯片TX231采用异构架构进行设计,它是全球第一款集成独立混合粒度可重构计算核的蓝牙SOC芯片,支持神经网络处理以及传统音频信号处理。这颗独立的可重构核,采用清微核心的可重构计算架构技术,没有传统指令驱动的计算架构中取指和译码操作的延时和能耗开销。
同时,针对神经网络逻辑和非神经网络逻辑进行了计算效率考虑,针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算;而对于非神经网络,可重构架构通过配置形成不同的电路结构来动态(配置)处理不同,在保证灵活性前提下,计算效率有极大提升。
可重构计算核通过混合粒度的异构设计,在能效比上表现优异,能高效支持语音交互控制,通话降噪,环境检测,ENC(环境降噪),ANC(主动降噪)等等,这使得TWS耳机的信号质量,功耗以及计算延时等核心指标都有了明显提升,为TWS耳机在音质的提升,续航体验上打开了一种全新的局面。
蔡权雄鲲云科技联合创始人&CTO
鲲云科技在分析了许多现有的深度学习算法以后,设计了一个异构系统,在CAISA系统里面,我们有用于大型卷积神经单元网络的运算的专用引擎,也有专门适配于传统计算视觉CV的一个更灵活的计算引擎。还有在不同的引擎里面,我们可以支持不同的数据表达格式,从而达到不同的运算精度。
为了克服异构架构中的内在的问题,鲲云开发了一个高效的编译器工具链RainBuilder。编译器允许用户把现有的深度学习算法,从TensorFlow、PyTorch等常用的AI框架里面移植到鲲云的系统。编译器具备CAISA架构的底层硬件知识,利用这些知识在图节点层面做出优化,此外还提供透明的运行时。
在硬件方面,CAISA架构提供高速的片上通信通道,数据可以通过这些通道在不同的异构引擎之间流转。引擎类的数据架构可以通过重叠的数据计算时间和数据搬运时间来提高计算效率。用户也可以通过鲲云提供的API充分利用底层的硬件来实现复杂的自定义新算子,可见,CAISA架构的优势在于更灵活的计算,更高效的计算效率,和更易于开发人员使用的环境。
国产AI芯片突破点在哪?
一直以来,英伟达都是AI芯片领域的“领跑者”,其A100更是被业界认为是史上最大性能的飞跃。在此情况下,国产AI芯片若要实现弯道超车,又该在哪里寻找突破点呢?
清微智能CTO 欧阳鹏
摩尔定律放缓,人工智能时代算力需求的迅猛增长和市场需要的多样性,使得芯片架构创新成为提高处理器性能的唯一出路。国产AI芯片也正是在该领域发力。从目前国内创新企业提出的架构方案来看,综合考虑成熟度以及可产业化性,清微智能的可重构计算架构最有机会从计算效率上进行突破。
结合其本身具有的灵计算通用性,能够在保持灵活性的前提下,实现产品化落地。从目前实际取得结果来看,可重构芯片在28nm工艺下,超过了其它架构在16nm甚至12nm下的芯片性能。
鲲云科技联合创始人&CTO 蔡权雄
A100 GPU是一款出色的产品,其CUDA硬件具有出色的可扩展性,GPU可以通过简单地添加更多CUDA核来推高峰值性能。另一方面,CUDA软件生态系统允许用户使用多线程编程范式来利用数千个小内核。有CUDA软硬件生态系统近15年的投入和积累,无论是国内还是国际,其他公司都很难在短时间内按照英伟达的方式生产出更强大的产品。
但GPU产品有一个根本问题:它是一种高性能计算的通用产品。而定制化的ASIC可以用更少的硬件资源实现更高的性能,这是领域特定架构 (DSA) 相对于CUDA等通用计算架构的优势,根本原因在于专用硬件旨在更有效地完成机器学习特定的计算任务。相信这种通用性和效率的取舍,是国内AI企业与其他GPU产品竞争的关键。
在机器学习领域应用中设计和制造性能优于GPU的芯片并不难,真正的挑战在软件方面。CUDA编程环境可以通过程序员最熟悉的接口和范式,真正将硬件的计算能力释放给程序员。一旦企业为基于DSA的硬件创建了良好的编程范式,那么整个产品在机器学习领域将优于GPU。
AI芯片发展还有哪些限制?
在AI芯片领域,有着“无AI不芯片”的说法,当下无论是智能汽车、智能家电还是机器人等产品中,都置有一颗甚至多颗承载AI功能的芯片,可见AI芯片是推动万物互联时代发展必不可少的物件。那么,目前AI芯片的发展还面临哪些问题?又该如何改善呢?
清微智能CTO 欧阳鹏
从国家战略层面看,智能化是大势,国家宏观微观政策的制定都在推动各行业朝着更加智能化方向发展,对AI芯片的需求随着整个智能化的发展会越来越大。
在AI芯片行业,人力成本上升非常明显,人才的短缺限制着AI芯片的发展。AI芯片是一个新兴创新型的产业,众多创新型公司缺乏足够资金去完成高投入的芯片研发,以及吸引相关人才,发展会非常困难,更不要说实现产业化落地了。因此,需要政府从资金引导,人才政策倾斜,以及行业应用示范等方面加大扶持。
另外,供应链成本的上升也让AI芯片落地更加困难,存储颗粒成本上升,芯片产能短缺,基板产能短缺都是大问题。希望产业上下游共同努力完善供应链的配套,保证产能供给,让AI芯片落地更具有价格竞争力。
鲲云科技联合创始人&CTO 蔡权雄
AI芯片的产业落地在于依托AI芯片,能形成有竞争力的人工智能解决方案。AI芯片的核心功能在于实现AI算法的计算加速。
在产业上来看,更多的是要针对特定领域,从场景算法和AI硬件两个角度实现性能最优,这需要无论是产业应用方,还是技术提供方,在落地场景、场景数据、算法精度、应用需求等方面,与领域深度结合,真正为落地应用带来终极价值。