瀚博半导体发布数据中心推理卡VA10,宣布预览7nm云端GPU
9月3日,芯片设计公司瀚博半导体参加了2022世界人工智能大会,承办了“用‘芯’赋能 虚实无界——人工智能大芯片产业落地论坛”,并在会上发布了瀚博统一计算架构、全新数据中心推理卡载天VA10、边缘AI推理加速卡载天VE1和瀚博软件平台VastStream扩展版,并预览了国产7nm云端GPU芯片SG100。
瀚博发布数据中心推理卡和边缘AI推理加速卡两款芯片
会上,翰博半导体发布了面向数据中心的载天VA10加速卡。
这款加速卡搭载了瀚博半导体自研的超低延时、超高吞吐AI引擎,最大的亮点在于,Int8峰值算力达400TOPS,功耗150瓦。
载天VA10加速卡
据瀚博半导体CEO钱军介绍,VA10加速卡的整体最高推理性能达到同功耗主流GPU的2倍以上,且延时低至后者的6%。在低延时场景(低于4毫秒的YoloV3检测算法场景)下,载天VA10的推理性能,可以达到同功耗市场主流GPU的3倍以上。
此外,VA10拥有高密度编解码能力,能支持100路1080P 30帧的编解码转码,适合多种需要高实时性的云端AI应用部署,如直播视频增强、智慧交通管理、实时语义理解等场景。
与此同时,瀚博还发布了首款面向边缘大算力场景推理卡载天VE1系列。
在产品性能上,载天VE1兼具超低时延与超高吞吐率,吞吐率达到主流GPU的2倍,但时延时不到主流GPU的5%;此外,载天VE1功耗低、算力大在40~65瓦功耗下,INT8峰值算力达100 TOPS,这款加速卡支持60路1080P视频实时解码,支持主流AI框架的模型,提供从模型编译到推理优化的全流程低代码开发框架VastPipe,软硬结合为客户提供端到端的AI推理解决方案。
在应用场景上,载天VE1可用于如高速公路事件检测“人、车、非机动车”视频结构化、大数据研判等超高数据量并发场景;或者如道路实时动态信息交互、工业的缺陷检测等低延时要求场景。载天VE1可适用于智慧交通、车路协同、工业质检等边缘打算力场景。
统一底层计算架构
在会上,钱军表示:“芯片仅有算力是不够的,如果接口变成瓶颈、数据变成瓶颈,还是不能有效达到,算力效能需要被数据池化,在云端集中发挥更高的算力效能,以形成完整的虚拟化技术、虚拟化功能。”
翰博新发布的统一计算架构整合了高性能AI引擎、可编程的矢量计算引擎等多款高性能计算引擎,拥有高效统一的存储管理、一致性接口和低链接延迟、完整的虚拟化功能。
对于不同客户的应用需求,翰博半导体有相应的的模块化上层计算库和功能模块,例如专门面向视频、AI等。
在整个软件层面,统一计算架构和统一的底层软件设计、模块化的上层计算算子库和功能模块,能够让计算密集型的AI、视频、渲染任务性能得到最大化硬件加速,同时端到端缩小延时,一体化助力云端实时图形渲染、AI增强处理、视频编解码等需求。
基于底层自主研发的硬件、引擎和存储管理链接,配合统一的VastStream底层软件设计,翰博半导体可以快速地加速对产品的迭代、更新,推动在各个产业的落地。
7nm云端GPU预览
最后,会上,瀚博还给观众预览了其全功能的GPU芯片SG100,该芯片国产自主设计的7nm的云端GPU。
GPU作为图像渲染的加速,对渲染的要求越来越高,以前是高清,逐渐会要求电影院体验,甚至各种各样沉浸式渲染需求。瀚博的SG100是为了云端的应用、云端的GPU而设计定制的一个产品。
据钱军介绍,这款芯片拥有对比业界主流云端GPU更先进的性能,图形渲染性能,拥有世界领先的超高吞吐率、超高质量、低延时的编码能力,集渲染、AI、视频于一体,用SG100渲染出来的视频在色彩、帧率、细节、光照等等各方面,都表现得非常完美。
据悉,钱军曾是AMD高管,在创办瀚博半导体之前,他曾带领AMD中国团队设计量产了业界第一颗7纳米图形处理器和第一颗7纳米GPGPU架构的AI芯片。同时,瀚博的核心研发团队也都拥有18年以上高端芯片设计和量产的经验。SG100的成功研制正是基于上述深厚且独一无二的技术背景和底蕴。
SG100意味着,瀚博将正式进入GPU市场。未来瀚博将基于GPU、AI和视频核心技术带来更多产品组合,更好地满足市场、客户的需求。