wordpress太简单,南昌网站seo哪家公司好,音乐网站建立,网站开发应该怎么做点击关注 文 | 姚 悦
编 | 王一粟 大模型“跑”进手机#xff0c;AI的战火已经从“云端”烧至“移动终端”。
“进入AI时代#xff0c;华为盘古大模型将会来助力鸿蒙生态。”8月4日#xff0c;华为常务董事、终端BG CEO、智能汽车解决方案BU CEO 余承东介绍#xff0c…点击关注 文 | 姚 悦
编 | 王一粟 大模型“跑”进手机AI的战火已经从“云端”烧至“移动终端”。
“进入AI时代华为盘古大模型将会来助力鸿蒙生态。”8月4日华为常务董事、终端BG CEO、智能汽车解决方案BU CEO 余承东介绍通过盘古大模型的底层技术Harmony OS带来了下一代智能终端操作系统。
在手机上使用大模型早已不是新鲜事此前ChatGPT、文心一言、妙鸭等APP、小程序都是通过调用云端算力满足手机终端AI应用的需求。
下一步则是让大模型直接运行在手机上。
从今年四、五月开始美国科技三巨头——高通、微软、英伟达最受瞩目的AI新星OpenAI以及国内AI“头部战队”的腾讯、百度等都已经纷纷加速推进在移动终端的轻量化部署AI大模型。高通甚至宣布正在逐渐转型成一家智能边缘计算在移动终端等数据源头提供计算服务的公司。
巨头的群力强推下大模型从云到端迈进的产业趋势已经十分明确。
大模型为什么要“跑”在手机上
大模型的最大特点就是“大”动辄百亿千亿甚至万亿参数且为了更好运行大模型算力集群都已经升级到“万卡”级别。如今为什么又非要把大模型“塞”进巴掌大的小手机
大模型确实会给手机用户带来一些体验上的提升。例如华为终端智能助手小艺不仅可以根据语音提示推荐餐厅还可以进行摘要总结、信息检索、多语种翻译等信息处理数千字的英文长文具备大模型能力的手机智能助手就可以生成摘要还可以翻译成中文。尤其后一点在信息爆炸时代对于提高学习工作效率还是很有价值的。 华为终端BG AI与智能全场景业务部总裁贾永利解释一方面大语言模型具备泛化能力能够帮助手机智能助手提升理解能力。另一方面大模型Plug-in的插件能力可以在手机内部打通各应用之间的壁垒借助工具拓展能力。
此外ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议但如果完全在端侧运行就能够完全避免这一问题。因为大模型在端侧运行数据也不会离开端侧。而且这样响应的速度还会更快。
另一边大模型对于到手机等移动终端的需求也已经非常迫切。
大模型的汹涌之势让云端越来越无法独自承载算力的需求。高通高级副总裁Alex Katouzian近期就直言“随着连接设备和数据流量加速增长叠加数据中心成本攀升我们不可能将所有内容都发送到云端。”
不算数据传输要消耗网络带宽、存储以及硬件等大量资源光是云端算力现在已经让相关厂商有些吃不消。ChatGPT仅在推理阶段保守估计每个月算力成本在1000万美元左右。 最大的问题还不是“贵”而是“缺”。
此前就连OpenAI创始人Sam Altaman都自曝GPU很缺甚至直言不希望太多人用ChatGPT。近期也有业内人士推测小型和大型云提供商的大规模H100集群容量即将耗尽H100的需求趋势至少会持续到2024年底。当前英伟达H100的产能还严重受制于供应链。
所以云端和终端形成配合手机等终端闲置算力资源被利用起来解决“集中式”算力与“分布式”需求的错配已经成为大模型发展“降本增效”的确定趋势。更重要的是相比数量有限的中心节点众多的移动终端堪称触及万千场景的“毛细血管”也就决定了这一入口会是大模型加速应用渗透的关键。
如何把大模型“装进口袋”
“相比传统的PC或者服务器移动终端最大的挑战就是如何平衡好体验和能耗这是鸿蒙内核设计最重要的核心点之一。”华为终端业务软件部总裁龚体强调。
大模型需要大量的计算资源和存储资源尤其是基于现有的手机硬件配置这就需要软件系统做好协调提升效率降低能耗。 现在手机为了提高性能至少是8个芯片内核就需要手机系统做协同这个过程就会消耗大量算力。如果采用异构资源调度就可以高效协调CPU、GPU、NPU。龚体表示这样调度效率可以提升60%以上。
手机系统能够进行运算调度的最小单位叫做线程传统的操作系统中往往上万线程同时运行其中就会存在大量无效线程。针对这点就可以通过更轻量的并发模型来处理并发操作降低无效线程切换对算力的消耗。据龚体说并发模型可以让任务切换开销节省50%。
另外在操作系统的任务调度方面这也是影响流畅体验的最基本要素相比公平调度动态优先级调度会很大程度降低能耗。动态优先级调度就类似于一个智能交通系统可以根据道路状况和交通流量动态调整交通信号灯亮起状态如当某个方向的车流增加时该方向的信号灯就提前变绿就会减少拥堵和延迟。
不过要想让大模型部署到手机上还能运转起来光是手机操作系统升级改进还远远不够。
随着大模型预测越来越准确网络越来越深神经网络消耗的内存容量已成为核心问题。同时还涉及内存带宽的问题网路运行时内存、CPU和电池都会飞速消耗这绝对是现在的手机难以承受之重。
因此在部署到手机之前就必须对大模型进行压缩以降低对推理算力的需求。但是一定要确保原有性能和精度基本不变。
量化就是一种常见且重要的压缩操作可以减少模型占用的内存空间提高推理性能。本质上就是将浮点运算模型转化为整数运算模型因为整数运算比浮点运算精度更高运算速度也更快。
当前量化技术也已经在加速突破。服务器上训练的模型一般采用32位浮点运算FP32在手机端高通已经将FP32模型量化压缩到INT4模型实现64内存和计算能效提升。高通的实现数据表明在借助高通的量化感知训练后不少AIGC模型可以量化至INT4模型与INT8相比性能提升约90%能效提升大约60%。
大模型压缩技术无疑是AI巨头制胜移动终端战场的关键因素。这也在一定程度上解释了英伟达在今年2月为什么“悄悄”收购了掌握压缩大模型技术的人工智能初创公司OmniML。
大模型倒逼终端硬件升级
“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行。”高通产品管理高级副总裁兼AI负责人Ziad Asghar近期则对外表示100亿-150亿参数的模型可以覆盖绝大多数AIGC用例。如果终端已经可以支持这一参数级别运算可全部在终端上进行手机会成为真正的个人助理。
但是当前新一代旗舰版手机芯片也就可以承载运行10亿参数级大模型高通在今年6月计算机视觉学术顶会 CVPR 上成功演示的跑在安卓系统上的大模型也不过15亿参数。
参数跃升几乎十倍奔赴移动终端的大模型已踩下“油门”那手机也就不得不加速升级才能应对。
手机硬件亟需在AI加速器和内存进行革新。
首先更大参数的大模型需要更大的内存和存储空间来存储模型参数和中间结果。这就要求移动终端内存芯片容量以及内存接口带宽都进行升级。
其次更大的参数势必需要更强大的计算和推理能力处理输入数据和输出结果。
虽然目前手机芯片上的AI加速器例如各种NPU IP几乎已经是标配但设计基本上是针对上一代卷积神经网络设计并不完全针对大模型。
为了适配大模型AI加速器必须能有更大的内存访问带宽并减少内存访问延迟。这就需要AI加速器的接口上做出一些改变例如分配更多的pin给内存接口同时也需要片上数据互联做出相应的改变来满足AI加速器访存的需求。
高通能喊出“年内100亿参数跑手机”的重要原因之一就是其手握搭载了高通史上最快速、最先进的AI引擎的第二代骁龙8处理器相比第一代骁龙8处理器AI性能提升了4.35倍能效提升60%。
当然超大规模参数大模型的训练和推理即便在云端也亟待突破五堵墙内存墙算力墙通信墙调优墙部署墙手机更得一层一层去突破。
不过从“智能”到“人工智能”对于手机来说机遇大于挑战。
“创新周期对电子消费品的影响更为重要甚至可以带领一个产业走出经济周期的影响。”荣耀终端CEO赵明判断当前智能手机行业就处在一个AI、5G开启的新一轮创新周期中。
欢迎关注光锥智能获取更多前沿科技知识