人工智能
当前位置:时讯网 > 人工智能 >

阿里发布含光800:称其为全球最高性能AI推理芯片

2019-09-26 20:14:00 腾讯科技 浏览数: 时讯网

9月25日消息,阿里巴巴集团CTO兼阿里云智能总裁张建锋在云栖大会期间宣布,发布含光800AI芯片,并宣称这是全球最高性能的AI推理芯片。与此同时,基于含光800的AI云服务也会正式上线,性价比可提升100%。 据介绍,目前,含光800已经实现了大规模应用,已应用...

  9月25日消息,阿里巴巴集团CTO兼阿里云智能总裁张建锋在云栖大会期间宣布,发布含光800AI芯片,并宣称这是全球最高性能的AI推理芯片。与此同时,基于含光800的AI云服务也会正式上线,性价比可提升100%。

  据介绍,目前,含光800已经实现了大规模应用,已应用于阿里巴巴集团内多个场景,未来还将应用于医疗影像、自动驾驶等领域。

  张建锋表示,这是互联网公司研发的第一款芯片,是万里长征第一步,且完成这款芯片只用了一年半时间。

  他进一步表示,阿里巴巴将成为一家软硬件一体化公司。

  阿里方面宣称,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

  张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”

  阿里方面表示,含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

  含光800已开始应用在阿里巴巴内部核心业务中。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

  过去半年,平头哥先后发布玄铁910、无剑SoC平台。随着含光800的发布,平头哥端云一体全栈产品系列已经涵盖处理器IP、一站式芯片设计平台和AI芯片。

  关于含光800发布的QA:

  1、含光800有何特点?

  含光800是阿里巴巴第一颗自研芯片,也是全球性能最强的AI芯片,主要用于云端视觉处理场景,性能打破了现有AI芯片记录,性能及能效比全球第一,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

  含光为上古三大神剑之一,该剑含而不露,光而不耀,正如含光800带来的无形却强劲的算力。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。

  含光800已开始应用在阿里巴巴内部核心业务中。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

  含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务当天正式上线,相比传统GPU算力,性价比提升100%。

  2、从去年首次公布到现在,平头哥NPU团队过去一年主要做了哪些工作?

  过去一年,平头哥团队在不断探索芯片与场景的融合。阿里巴巴拥有丰富的人工智能应用场景,图像视频分析、搜索、推荐这些业务场景都需要AI专用芯片提供算力,而图像、视频对算力的需求量最大。

  围绕这一目标,平头哥针对场景深度定制了芯片的软硬件,例如自研了架构、软件编译器、框架、工具链等等。后期也针对INT8数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。

  值得注意的是,平头哥用最短的时间完成了芯片的设计、流片整个过程,7个月完成前端设计,之后仅了3个月就成功流片。

  3、含光800的核心优势是什么?能为企业带来什么价值?

  在人工智能领域,要提升计算效率,芯片需要根据场景来实现更多的差异化设计。在人工智能视觉场景中,含光800可以提供全球最强的算力。

  阿里巴巴是全球最大的人工智能应用者之一,丰富的场景为研发人工智能芯片提供了绝佳平台,这是平头哥的天然优势。依托阿里巴巴集团丰富的应用场景,平头哥早期就针对场景做了大量优化,因此实现了性能上的突破。

  含光800的算力也不仅仅满足阿里巴巴集团内部场景的需求,还会通过阿里云对外输出,帮助企业用更低的成本获取高性能算力,加速业务创新,例如,对于受限于算力瓶颈的企业而言,含光800可以更高效地运行更复杂、更先进的算法。

  4、平头哥如何实现算法和芯片架构的协同?团队做了哪些创新和突破?

  事实上,平头哥研发芯片并非从0开始,在阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀之上,含光800重构了芯片的软硬件技术栈。

  由于人工智能芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值。从目前来看,传统CPU、GPU在深度学习推理任务上并没有完全发挥硬件能力,例如GPU架构主要针对图像处理设计,其硬件结构、软件生态几乎固化,因此对AI任务很难有深度优化。

  含光800性能的突破得益于软硬件的协同创新,芯片架构方面,含光800采用创新的架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。NPU同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。

  算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。

  基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈。

  这样的设计理念效果立竿见影,例如功耗是人工智能芯片行业通病,平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,把芯片功耗降到最低水平。

  5、芯片流片以及具备商用能力的难点分别在哪?

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们删除,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;

转载本站原创文章请注明来源:时讯网

行业聚焦

增强的智能和分布式账本技术将改变医疗保健行业

联合国专家顾问Anushka Patchava博士对为什么增强智能将会改变医疗保健行业而不是人工智能和分布式总帐技术进行了探讨与分析。...[详细]

人工智能医疗助力就医质量提升

企业网(D1Net)人工智能AI频道是人工智能机器识别的专业资讯平台。人工智能AI(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质...[详细]

人工智能的大挑战:如何在社会责任中发挥作用

当前关于人工智能的讨论有些类似于购买新车的过程。在驾驶车辆并发现它能做什么之前,购买者花费大量的时间和精力用于讨价还价和选择。...[详细]

人工智能真的会取代人类?技术的未来变革颠覆你的想象

研究发现,技术人才招聘市场明确呈现两项趋势:一是技术和企业业务紧密相关,二是传统的 IT 人才应该更加了解商业脉动。对于像雅诗兰黛全球首席信息官乔治·库安(George Kuan) 这样的技术领导者来说,发掘兼具技术与商业专长的人才刻不容缓。他表示:“当前...[详细]

如何创造更人性化的人工智能?

任何开发人工智能技术的公司都需要问自己,他们是否有权使用拥有的任何数据来支持人工智能。如果没有,其他所有内容都将受到最初的道德违规行为的影响。...[详细]

一周排行每月关注