合肥君正「芯片 + AI 算力 + AI 开发平台」方案落地,公布全栈式低功耗 AI 技术
4大亮点、5大竞争力,合肥君正「AIE+Magik」对垒智能视觉领域。
习惯在针尖上跳舞的合肥君正,在萌芽之时就认识到AI的重要性。
2014年前后,视频芯片市场已有众多厂商,且大多鏖战成像和传输。彼时的君正意识到,用模仿的方式硬生生地去打这个市场难以出头且毫无价值,而AI将成为下一战场的关键。从那时起,AI与算法部门成为君正最早的技术部门之一。
7年白驹过隙,那些或深或浅的脚印现已踏出一条康庄大道:最近,君正正式公开了自己的AI硬件加速引擎和AI开发平台Magik。
君正视频事业部副总经理刘远表示,这套技术从开始至今,经历了各方面的锤炼:
“从T01到T02再到T31/T40,从computer vision到deep learning再到混合量化,从安防摄像机到低功耗门铃再到立体机器视觉,从Tensorflow/Caffe到Magik,从第一家客户试探性接入到大量产品算法落地,这套技术已经从创新研发走到普惠应用。”刘远说道。
这历时多年的武器,将往视频行业投下一枚怎样的石头,又怎样协助下游客户落地更具竞争力的产品?
直奔落地的一整套「芯片+AI算力+AI开发平台」解决方案
如何为端侧AI应用提供一套成本亲和,性能出众,功耗低,又易于落地的基础技术组件?这正是合肥君正一直在思考的命题,也是君正AI技术研发的核心目标。
刘远指出,经过多年摸索,这样一套基础技术组件如今包含:
一系列落地芯片:布局完备,覆盖高中低阶,除AI以外具备完整的各方面竞争力,成本亲和,性能均衡,效果出众,功耗领先,被市场认可并且持续大量出货。这就像AI和算法落地生根的土壤,越广阔越好。
一套先进的AI加速硬件:优秀的PPA(Performance, Power, Area),兼具高性能和灵活性,并且通过有效创新,真正突破AI推理在端侧产品中的各种瓶颈,使得高发热,高带宽,成本冗余等在实际产品中不再是问题。
一个完善的算法开发平台:敏捷的算法移植过程,除了提供一键式算法部署,还提供最先进的量化感知训练方法论,提供典型网络的全流程开源代码,让算法专家专注于挖掘痛点与数据的价值。
君正的整体AI技术架构如下图:
其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,协处理器和RAM Pool等多重加速技术。
主要优势是“三高三低”:算力高,利用率高,灵活性高;功耗低,外围成本低,带宽需求低。
Magik是基于AIE的算法开发平台,除了基本的工具链还包含其他丰富的辅助开发资源。并且支持后量化和更先进的量化感知训练(QAT)。
“卷积神经网络的本质是计算,幸运的是,君正一直是国内为数不多的完整CPU计算技术的拥有者,这一点,奠定了我们的AI技术具有较高的发展起点。”
刘远说道,“而Magik融合了我们这几年在视觉产品落地上的各种经验,能够发挥AIE独特的领先性能。二者搭配,呈现在行业客户面前的就是一整套完整的‘芯片+AI算力+AI开发平台’的解决方案,使得应用者非常容易落地。”
利用这套平台,可以带来多方面长远的优势:
产品化优势:这套技术可运行于君正当前和未来的各种芯片当中,下游产业链条成熟,碎片化风险低,生态一致性有保障;
商业化优势:已有大量芯片持续出货,品牌背书充足,能加快算法赋能和变现的节奏;
成本优势:包括eBOM成本,算法成本,研发成本等;
性能优势:可获得更高的物理算力,更高的利用率;
低功耗优势:体现在产品端就是发热明显低,续航更好,散热无忧;
“AIE+Magik是君正原生创新的技术,完全自主。T40作为搭载这套技术的最新一代芯片,却并非第一代产品。”刘远强调,“在这之前,我们经过了T01/T02/T31等几代量产芯片的验证,积累了大量宝贵经验,到T40这里,AIE+Magik已经十分成熟”。
AIE—有效突破端侧AI的算力瓶颈
AI-Engine(AIE)是君正完全自主创新的一套AI加速硬件组合,广泛支持各类神经网络加速,如CNN/RNN/GCN等,也支持传统CV算法和平面运算的加速。得益于公司对CPU技术的掌握,AIE实现了其他一般芯片公司难以做到的CPU与NPU的同构设计。
在全球各种不同的AI加速技术路线中,DSA(Domain Specific Architecture)尤其适合端侧推理场景。AIE引用了多种DSA的设计理念,实现了一整套满足复合算法加速的硬件组成:
支持SMT多核架构的XBurst2 CPU,凝聚了君正团队20多年的CPU技术精华;
128bit/512bit/1024bit位宽的SIMD指令集,针对向量运算加速;
算力高达2T - 32T的NN加速阵列,针对张量计算加速,支持混合位宽量化
协处理单元,对其他运算加速;
高效RAM pool,深度优化内存带宽吞吐
实测运行功耗很低,8T算力场景下典型功耗小于500mW,能耗比最低达到了0.05W/T级别
“与云上的AI芯片加速不同,在端侧芯片上,4T算力曾经是天花板,这并不是因为硬件无法将算力继续提高,而是因为端侧产品在算力以外有太多的制约因素。”刘远解释道,“如果不优先把NPU内部的PPA、带宽、功耗等关键障碍解决,即使再提高计算矩阵的规模,实际芯片也大概率发挥不出来。”
归纳起来,端侧算力的瓶颈主要集中在:产品端的资源限制,算法多样性的挑战和算法开发环境。
端级芯片在计算资源和成本都面临限制,无法像云端服务器那么丰富和冗余。
在终端售价,RAM内存容量,ROM模型存储,发热控制,DDR的带宽等方面都面临极大挑战。
所以端级产品需要与云端不同的AI加速技术。
君正AIE特别针对端级应用设计,采用专用硬件架构DSA(Domain Specific Architecture),与常见的NPU相比,有明显的规格优势:
MAC利用率提升1到2倍,推理速度提升2到4倍;
算法运行的RAM/ROM消耗减少50%~70%;
带宽降低35%~85%;
发热减少40%~80%。
无论2C还是2B/G市场,不同应用对AI算法的要求差异很大,即使是相同功能的算法也难以做到单一模型覆盖所有场景。
其次人工智能学术领域仍然在发展,虽然变化的速度减缓,但未来仍然会不断出现新的网络,新的流程,新的算子,新的训练方法等等,这些决定了目前的AI加速硬件还没有到达统一收敛的阶段。
端级算法本身呈现多样性,碎片化的客观现状。
这就要求芯片中硬件的加速能力非常灵活,能够应对各种未知算子/算法/网络/流程的变化,这一点对AI引擎的设计提出巨大挑战。
君正AIE结合了多年积累的CPU技术,摸索了一套兼顾高性能和灵活性的创新技术:
算力达2T ~ 32T的NN加速阵列,实现千倍加速比;
非标计算协处理单元,实现百倍加速比;
128bit到1024bit位宽的SMID指令集,实现几十倍加速比;
RAM Pool系统,显著降低带宽;
高主频多核多线程XBurst®2 CPU。
“过去至今各种行业摄像机搭载的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪费’、‘功能可用但难以普及’等情况,随着搭载AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且内置了DDR,这些痛点会得到很大改善。”刘远表示。
Magik—全栈式深度神经网络开发平台
硬件是躯体,软件和算法是灵魂。如果是AIE是躯体,那么Magik就是灵魂。
Magik是一个面向端侧AI应用的全栈式开发平台。与一般的AI开发工具链相比,Magik包含了更丰富的内涵:
全流程,一体化。集模型训练、优化转换、部署推理于一体,并提供模型检查器、调优器、性能分析器等工具;
多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架;
量化感知训练(QAT)。支持2/4/8/16任意精度混合训练及转换优化,在保证精度的同时,能充分利用AIE的计算资源;
灵活性。同时支持QAT和后量化方案,加速应用灵活部署;
开放性。开放人脸/人形等常见算法的从训练到部署全流程代码,以及经典网络的backbones,增强易用性,加速落地。
“Magik不仅仅是一个AI转换工具链,还是一个丰富的开发平台,”刘远补充道,“有工具链,framework插件,Model Zoo,常用的backbones,还包括一般摄像机非算法的支撑功能,例如成像,编码,帧数据流,内存复用优化,存储降维,多目同步,甚至内存泄露防范等都有体现在内,真的值得用一用”。
Magik的一大特色是支持较为先进的QAT方法论。端级AI应用目前大多还停留在后量化方法阶段,相比QAT,后量化更像是端级AI的过渡阶段。后量化过程相对简单,但精细度不足,算力容易形成浪费,功耗成本带宽等难以解决。QAT方法能够更精细地根据加速硬件的特点调整训练细节,从而发掘端级AI算力的潜力,达到提升算力利用率,降低功耗,带宽和成本的效果。
使用Magik的开发过程很容易上手,流程示意图如下:
“Magik就像一把‘云梯’,帮助客户快速落地AI算法和视觉产品,它能给行业带来长期的助力”。
与AIE的发展相辅相成,Magik具有未来小型生态的潜力,其坚实基础是君正过去,目前和未来所有的算力芯片,只要君正芯片能够覆盖到的市场领域,都可以发挥作用。
春风化雨时,润物细无声
“早几年当AI的浪潮滚滚而来,喧嚣尘上之时,我们并没有太多发声,但并不代表我们没有行动。”刘远讲道,“当东西没有真正拿得出手时,我们自己心里这一关就过不去。而现在,AIE+Magik这一套技术,已经服务了很多客户,并让不少人尝到了甜头”。
据了解,AIE+Magik已经成功服务了超过几十家客户,包括一些行业知名品牌,传统算法公司,行业监控企业,大型互联网品牌,运营商以及初创极客。
这些服务,远超算法开发这个层面。要实现设备承载不同的算法运行,首先需要克服算法计算标准化的困难,但这只是端侧AI落地过程中挑战的冰山一角。
除此之外,设备的产品属性,可量产属性,消费者体验属性以及开发周期等方面都需要大量的投入。
君正完成了各种典型视觉产品的方案积累,例如安防监控,物联网视觉,低功耗成像,智慧办公,文字扫描,生物识别,立体视觉等领域都能提供完整的解决方案,让算法赋能只需要做简单加法就可以落地。
“这样做有没有社会价值,有多大的社会价值,是推动我们每一项产品和技术研发的精神内核。”
北京君正副总经理黄磊曾多次强调。在AIE+Magik的落地过程中,赋能下的各大下游企业的产品价值,都是对这一说法的精准注脚。
“有一家算法专业型的客户,本身有很强的算法开发能力,基于君正芯片和Magik平台,开发了全新的产品系列。新产品系列比之前的老产品,成本下降了一个数量级,实现小型化。客户还独立完成了人脸识别算法的移植,运行效果十分良好。”
刘远介绍说,“与此同时,另一家知名的销售专业型客户,本身算法能力不强,但是非常清楚消费者痛点。基于君正芯片和Magik平台,在君正的辅助下建立了算法团队,利用Magik平台的开源代码和网络,基于自己的数据资源训练了人形侦测算法,客户利用消费者优势,不断对算法进行迭代,最终以运营方式上线算法,消费者反馈良好,运营转化率高于预期。”
不知不觉间,优质的服务成为了君正在智能视觉市场的核心竞争力之一。
目前随着T40芯片到位,很快将有更多搭载AIE+Magik的产品陆续进入市场。基于T40打造的视觉产品,能做到4T/8T算力,能耗比最低达到0.05W/T级别,外围BOM很简单,芯片售价做到几个美金。配合Magik和各种成熟方案资源,T40有望成为AI视觉大市场的细雨春风。
免责声明:安家啦家居网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。