AI推理芯片,大模型「下半场」的入场券

AI推理芯片,大模型「下半场」的入场券

2023年是“群模共舞”的元年。

先是ChatGPT的横空出世给予众人致命震撼,随后国内人工智能、互联网公司迅速加大资源投入“练模”。

3月,百度发布文心一言,打响了“练模大战”的第一枪。

在保卫“模型大战”中,力作为军人面对的重武器,一度成为众公司争抢的关键要素之一。
作为人工智能的三驾马车算力,是训练AI模型算力、推理任务的关键。假设把训练模型当作是做一份精致的菜肴,算力就好比一副称手的烹饪工具。
世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,鲜美的食材也只能望而兴叹。
“大模型动将近百亿级的参数,仓库里没有几张A100、H100,都谈不上入围。”
所谓兵马未动、粮草先行。为了练模,模型厂商们对算力芯片的购买达到了外围的水平。大模型这波风潮下,最先受益的,既不是倾身入局的企业,也非下游场景用户,而是以Nvidia为代表的算力芯片厂商。

5月,Nvidia市值一路飙升,成为首家市值达到1万亿美元的芯片企业。

如果把肇始于“练模”的造富奇迹归结于大模型的“上半场”,那么大模型的“下半场”的财富机遇,就如何把大模型装入应用场景中。这正如云天励飞CEO陈宁所言——
生产大模型不是,千行百业的落地和应用才是最终目的。”
大模型虽然改变了传统AI算法模型的生产模式,效率更高、效果更好、泛化能力更强。但从商业化层面,仍然跳过去脱不了AI落地的困境。
几年时间,无数AI公司前赴后继,趟出一条血淋淋的路子,AI+场景。而对于初始化颗粒化、视觉场景,AI公司们发现,边缘计算能够很好地解决AI应用落地的商业难题。
如今,大模型已然成为AI新范式,消防厂商在尝试商业化时,也提出了“行业大模型”“一线一模”的观点,即用大模型来解决零件化场景的业务痛点。
从这个角度看,在通往AI盈利的道路上,以灵活调度着称的边缘计算,将成为未来大模型全面落地到的重要场景一。环而为边缘计算提供算力的AI推理芯片,接下来又一个市场拓展内容。
01

掣肘AI落地的两个难点:场景与成本

场景与成本是AI老生常谈的话题,就像某横亘在理想与现实之间的长河,无法察觉又难以绕行。无力。久而久之,AI公司套上了“盈利魔咒”。
以ChatGPT为代表的大模型及时推崇,原因无他:在众人陷入迷途之时,大模型让逐梦者们看到了触摸黎明前的曙光。AI创业者林夕感叹道:“大模型,AI之光。”
如果没有大模型,很多AI公司可能熬不过2023年的冬天。林夕表示,ChatGPT强大的逻辑推理能力,人们第一次近距离逼近了人工智能的厉害之处。“信心比黄金重要”,当整个社会认可大模型,资本愿意继续加注。
毫不夸张地说,大模型给那些资金流转困难的AI公司们,强行命续了几年。毕竟AI之梦,也难逃现实的鸡零狗碎。
当然,这只是表象,AI如长夜、资本永眠。资本从不为情怀买单,而是看到了大模型以极强的泛化,能够有效解决场景和成本能力这一本质问题,从而带来巨大的的商业价值空间。这也正是逐梦者们看到的曙光——困扰AI商业化的问题得到破解。
过去,AI从实验室走向实验室应用场景,许多创业公司开始搞业务,在一个细节化场景里挖掘但高昂的研发启动与实际业务的经济价值相甚远,人效比极低,即所谓的“造血能力去严重不足”。
以安为例,虽然AI给这个行业带来了革命性的变化,最终受益者却不是AI公司,而是为数不多的几个安防联盟。原因是,安防标准化场景特别多,需要AI,但并不需要昂贵且强大的AI。
这些安防大能够从AI项目中的秘密工厂,另外开始B稳定的渠道,更重要的是,他们的人效比非常。这种优势体现在产品上就是:同样一个网络头,AI公司的产品天然贵上几十块。客户自然而然用脚投票。
如今,那些名噪一时的CV公司,安防业务已经偃旗息鼓。究其原因,AI公司在解决商品化场景需求时,一个任务一个模型的模式,造成研发成本居高不下,加之重复建设,导致整体运营成本处于高位,而安防本身属于脏活儿累活儿,事多钱少,AI公司自然而然会“水土不服”。
这种“牛刀杀鸡”的现象并存不局限于安防行业,但凡是AI所及之处,基本都能实现实现细节化场景这一核心命题。在大模型未出世之前,AI对于细节化场景非常头疼,也尝试过各种解题方式,比如小样本学习、自动机器学习等,但效果并不明显。
大模型无疑是肯定的解决碎片化场景的最优解,其极强的泛化能力,能够实现“一模多用”,即一个模型解决N个任务。大模型从根本上解决了算法生产的模式,能够解决碎片化、非标化问题,直接降低AI的普及成本,成为当下AI公司改变魔咒的重要路径。
02

大模型「下半场」:边缘计算成重点

如果说大模型「上半场」涉及技术的较量,那么「下半场」商业化的比拼。
无可置疑,大模型将解决掣肘AI实现的碎片化难题,并极其严厉的成本研发,给AI带来质的飞跃,从而具备更大的想象空间。但只有阶段性胜利,只有客户乖乖掏出钱包里的金币,并持续复购,产生价值,AI才算取得成功。
这个AI商业闭环中,还到了一个部署成本的问题。
AI不是消费电子,即买即用,其普遍被嵌入至大众电子设备中。但AI的消费大户,仍以降本增效为目的的B/G客户。这类客户对于AI的最后一公里交付极为重视,他们虽然不会为AI方案的部署浪费任何多余的金币。
传统AI部署常见于云端连接,主要通过云端进行计算,获取端需要微弱算力,数据在端侧采,算法在云上跑。这种模式存在几个问题:

云计算固然有大算力的好处,但对于一些需要快速响应、计算的场景,其存在的时滞现象非常致命;
云服务器费用高昂,很多企业并不需要大算力,盲目上云反而会造成算力浪费,计算量不高;
数据上云,一定存在安全风险;

为此,AI公司在云端一体之间,增加了边缘计算,来解决云端算力浪费及端侧算力不足的问题。
边缘计算的灵感受益于章鱼的八只触手。作为云端计算的协调和补充,边缘计算能够在数据源头附近的网关执行数据处理、分析,这种独特的优势可以实现各个单元之间执行不同的任务并实现多任务的一致性,同时实现碎片化片化场景的算力调度需求,具备低延迟、安全等特点。
而且,边缘计算设备的部署成本相对较低,客户不需要部署昂贵的云可以用上AI服务器,这一核心优势使得边缘计算备受青睐,已然成为AI落地的重要途径之一。但要真正让算法模型在边缘计算设备上跑起来,又涉及
两个比较重要的难点。
的算力比云端服务器弱,而大部分训练的算法模型,是在上服务器的,算法模型要实现迁移,需要做大量的优化工作。
其次,算法模型要在边缘设备上部署、执行推理任务,需要强大的AI算力芯片,并针对芯片做适配,才能保证算法模型的运行效率。那么,AI算力芯片的生态至关重要,但目前阶段比较尴尬的是,AI算力芯片厂商的分散程度较低。
可以预见的是,在大模型时代,第一个问题同样容易解决,因为大模型自带极强的泛化能力。至于第二个点,则设想中可多,其涉及到底层芯片技术的研发和攻关,以及对应的生态良好。如何边缘设备运行大模型,对于AI芯片厂商而言,既是机遇,也让挑战这件事。
03

大模型时代下,AI芯片的国产替代潮

AI芯片功能上分两类,分别是训练芯片和推理芯片。
训练芯片主要用于大模型的训练、学习和优化,注重计算性能,而推理芯片则主要为模型的推理进攻提供计算力。这两类之间的区别在于,训练芯片重计推理芯片训练效率高(时延、功耗)。并且,从云边端良好的角度看,芯片多用于服务器,推理芯片则主要部署在边端设备算力之上。
当前,国内大模型正处于练“模”阶段,极强的算力支撑,因此需要A我公司们将目光更多地放在了训练芯片上,即购买大量的GPU算力来训练算法模型。这也直接成就了Nvidia的万亿市值神话,其H100、H800等芯片一骑绝尘,则有华为、寒武纪等厂商在场
一旦大模型成熟,随之而来的即将落地应用,那么必然需要到边端设备,从而滋生出对推理芯片的庞大需求。然而,由于不可抗力因素,现阶段的芯片和推理
芯片均受到贸易管制,在此背景下作为深圳AI
第一股,云天励飞在边缘侧AI芯片的布局已初见成效。2020年,云天励飞第一代AI推理芯片DeepEye1000实现,并落地到AI相机、安全PC、商业机器人等边缘计算场景。
云天励飞副总裁、芯片产品线总经理李爱军告诉雷峰网,大模型作为AI的进阶形态,本质上还是要落地到具体业务场景才能产生价值,而边缘计算则不可逆的趋向势,因此完善边缘计算的推理芯片,对于未来大模型的应用至关重要。
在过去三年多的时间里,DeepEye1000广泛落地到各行各业,但同时也带来了灾难性的反馈:算力碎片化、算法长尾化、产品非标签化、规模化碎片化等痛点依然存在,传统以追求PPA的传统芯片模式难以适应AI边缘计算场景下人工智能落地的需求。
基于此,云天励飞打造了新一代的边缘计算芯片平台DeepEdge10 DeepEdge10属于主控级SoC,可以满足场景场景的控制
需要,同时基于云天励飞自研的新一代处理器NNP400T,可以高效支持Transformer。在架构方面,DeepEdge10采用了D2D Chiplet封装结构,可以实现算力灵活扩展,并通过C2CMesh互联扩展,可以支持千亿级大模型部署。
目前于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整体算力提升了4倍以上,采用D2D Chiplet封装,实现了从12T到48T的算力覆盖,总体性能比上一代芯片超过20倍。
在DeepEdge10的基础上,云天励飞还打造了Edge服务器算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的内存带宽,以及512GB统一内存。目前,DeepEdge10已经支持主流开源模型超过100种,模型支持的数量仍在更新,同时支持客户模型定制化的部署。
具体性能上,在Edge设备端,DeepEdge10Max运行端侧70亿参数的大模型可达每秒27Token/s,最高可兼容130亿参数的大模型。而在Edge Server上,采用C2C Mesh互联,多卡良好,运行700亿参数大模型可获得42Token/s的生成速度,最高兼容千亿级别参数的大模型。
据了解,DeepEdge10芯片平台核心对比边缘计算,可以针对不同的场景提供差异化​​算力,从而满足碎片化、硬件需求。目前,DeepEdge10已经进进入了大规模的应用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的产品合作伙伴,迫切需要在线下载更新云天超过100多种算法。
李爱军表示,大模型未来落地到机器人、无人驾驶汽车等场景,都需要用到推理芯片,而推理芯片正一个百家争鸣的过程。而在国内,如何基于国产工艺实现推理核心片的研发、流片和攻克关键。
当前阶段,国内芯片的成熟工艺工艺达到了14nm的关键。对于千亿级、万亿级别的大模型,其推理芯片不仅需要极强的计算能力,还要保持超低的功耗和超低的成本,对芯片制造进度的工艺达到5nm、2nm。显然,国产芯片距离最高端的芯片还有距离。
但是,结合当前国产工艺的,云天励飞与合作伙伴于2020年开始技术攻关,在ChipletD2D的技术上定制了一系列生产IP,实现了可以在14nm芯片上运行千亿大模型的功能。虽然成本、功耗会高一些,但已经是国产芯片的标准水平。至于工艺的芯片,国产芯片厂商既需要资源,也需要时间。
“我们志在打造国产自动化可控的AI芯片。”李爱军告诉雷峰网,这条路阻且长,但云天励飞会坚定地走下去。

相关新闻

联系我们

联系我们

13276019273

邮件:siyushenqi@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

添加微信
添加微信
Telegram
分享本页
返回顶部
私域神器:一站式全网全渠道拓客营销软件
销售热线:173 5412 3667 (←点击添加微信)