AI在手机里结出了果

原创脑极体 2024-12-02 17:44

TI MCU方案：能源基础设施实时控制 如何增强电动汽车的实时控制能力？

2023年初AI大模型火爆全球，当时就有人说，这项技术走向大众的最佳方式就是手机。

不管消费者怎么想这句话，苦于销量连年下降的手机厂商们肯定是把它听进去了。

于是，从2023年下半年开始，所有手机新品都在标榜AI能力，都宣称自己是AI手机。这场盛宴持续上演到今天，即使是相对保守的苹果也发布了“Apple Intelligence”，而那些原本被认为已经被挤压到缺少生存空间的二线手机品牌，也顽强地依靠“All in AI”留在了牌桌上。

一时间，AI在手机市场是锣鼓喧天，红旗招展，人山人海……不对，人山人海可能还不一定。

对于用户来说，面对铺天盖地的AI手机，华美无比的发布会PPT，可能有点小迷惑：AI到底能给我带来什么？这么多AI手机之间有什么不同？我设想的AI是科幻电影里那种，手机能给我吗？

事实上，从2017年深度学习火热起来之后，手机与AI的结合一直都在持续。几年来，我们经历了端侧AI算力、AI摄影、端侧大模型，到系统级AI能力的变迁。假如手机是一片果园，AI这棵果树在里面已经长了很多年。

那么，到2024年，AI手机无限风光之时，这颗果子它保熟了吗？

让我们穿越纷繁复杂的概念，看看AI手机究竟带来了什么。

提起AI手机，我们总会有一种很空洞的感觉，甚至不知道厂商和专家到底在激动个什么。

这种虚妄感来源于业界并不存在对AI手机的标准化认定。于是每个厂商，甚至每个人都可以对其进行独立阐释。这些阐释有共识，有差异，还有大量似是而非与文字游戏。这些声音交织在一起，就变成了一种概念游戏。

因此，想要了解AI手机，首先要避免被概念游戏干扰。就像要摘果子，首先要把枝叶拨开。如何实现这种免打扰呢？一个简单的方法，叫作“AI手机，我有三不看”。

首先，厂商的“AI大帽子”不用看。

不久之前，AI手机领域姗姗来迟地发布了此前承诺的Apple Intelligence。但这个“苹果智能”却没有激起多大的市场水花。原因在于，苹果智能更像是众多AI功能的升级打包，而非某种新能力、新思路。

这种给众多AI小功能起个大名字的玩法，在今天的手机界比较普遍。用户以为得到了新东西，其实不过是新瓶装旧酒，散装改零售。类似的说法，经常还包括某某智能、某某GPT、某某原生，大差不差都是一个意思。甚至很多时候这根本不是一个研发系统主导的项目，而是市场部归拢收集一下各个部门都有哪些AI能力，最后编个名字给写进PPT里而已。

其次，是缺乏标准的技术名词不用看。

任何技术在受到重视之后，都会经历一个造词阶段。这些新造的词有些会最终留下来，变成约定俗成、相对标准化的说法。但绝大部分都会悄然流逝在历史记忆里。在AI手机领域，我们经常会看见大量类似的新词。它们或多或少都有所指，但作为普通消费者大可不必去探寻每个词的来龙去脉，也不用被它们迷惑了判断。

诸如智能框架、意图识别、主动服务、全局智能等高大上的AI手机词汇，在今天都没有统一标准，爱好者可以研究研究，大多数消费者不妨敬而远之。

再次，大模型参数以及其他AI参数不用看。

从2018年预训练大模型开始出现，就产生了一种头部厂商说效果，其他厂商拼参数的现象。在核心能力上很难构建差异化的厂商，往往会宣传自己模型参数更大，跑分效果更好。这一点来到AI手机阶段，就变成了宣传端侧大模型的参数大、数量多。但AI模型不是CPU等硬件，参数高并不意味着性能好。模型效果还取决于压缩方案、调优效果等一系列条件，所以不必将厂商宣传的模型参数等同于产品价值。

蒸馏掉这些之后还能留下的东西，才是AI在手机里结出的果。

很多人都在说，AI没有应用可怎么办。但问题是，ChatGPT本身就是一种应用。在应用端再诞生更强的超级应用固然前景美好，但大模型本身的应用价值本身就有跟手机结合的空间。

AI手机的第一步，就是要把类ChatGPT的大模型能力带到手机的第一方功能里。比如iOS18.1，重点引入的AI功能，就包括AI写作、邮件推荐与回复、消息摘要等。换个角度想想，我们会发现这些都是ChatGPT就能做到的事。

这种思路并没有什么不好，而且也必须由手机厂商第一方来主导。因为如今智能手机提供的第一方功能非常多，而其中又有大量可以加入语义理解、内容生成等大模型能力的地方。因此，大语言模型与手机第一方功能的点对点结合，是AI在手机里结出最多的果。

对于类似功能的选择，建议是根据自身需求来挑选实用的功能，或者功能群组。比如去年11月，OPPO就发布了一键生成AI通话摘要。这个功能可以在通话结束后，智能识别通话内容并生成重点信息摘要。再比如Find X8 Pro可以长按电源键呼出问屏功能，AI根据屏幕显示来回答文章内容、图片信息等。小米在澎湃OS 2当中，也推出了一系列诸如AI写作、AI识音、AI妙画的智能功能。

但对于手机厂商来说，大模型功能的加入显然只是敲门砖。这种单点升级并不能满足厂商对AI的野心。

于是，智能体来了。

AI Agent又被称为智能体，被广泛认可是真正体现了AI思维的新应用形态。智能体可以跨越不同的软件工作流程，来实现目标主导的自主判断。这种运行逻辑放在手机里有两方面的好处。

对于用户来说，智能体可以被视作独立于点滑交互的新交互形式。用户可以命令智能体来完成指令，并且其理解能力、生成能力与应用范畴都远大于此前的语音助手，更加贴近用户对个人助理的基本想象。

对于手机厂商来说，智能体不仅是一个全新卖点，还可以绕过APP的藩篱，让第一方的应用权限更大，体验更加重要。把智能体做起来，有概率让用户习惯、第三方应用服务都与厂商绑定更加紧密。

在这样的驱动力下，几个月以来手机厂商纷纷在智能体阵地上秣马厉兵，誓有一种在2025年展开智能体决战的架势。而从AI手机的发展线上看，手机+AI Agent是一个脱离了ChatGPT基本应用框架，同时苹果为代表的欧美终端厂商没有跟进的领域。中国AI手机的未来成就，或许就系在智能体的机遇上。

在智能体方面，目前最为用力地就是荣耀。不久之前的荣耀Magic7发布会上，荣耀CEO赵明用YOYO智能体自动下单了2000杯咖啡，一下让智能体手机的概念大为出圈。目前，荣耀主推的智能体体验包括“一句话关闭自动续费”“一句话点咖啡”“一句话发送文件”“一句话关闭应用权限”等。在手机行业里相对完整且具体地展现了智能体价值。

在2024 vivo开发者大会上，vivo也亮出了自己的智能体方案Phone GPT，其不仅具有对屏幕界面的识别和操作功能，还可以接管音频，通过电话实现预订餐厅等功能。把智能体延伸到音频领域，也成为接下来一个值得关注的方向。

在OPPO这边，则有可以连续多轮自然对话，并可以跨应用操作的OPPO AI。除了提供识物、导航、问答等AI能力外，OPPO AI还可以与影像能力、AIGC能力结合，帮助用户完成图片识别、图片处理、排版润色等功能。

在华为这里，HarmonyOS NEXT版本具有搭载了盘古大模型的鸿蒙智能助手小艺。其感知和推理能力较此前版本有极大提升，可以实现23类主要场景的交互。

这些尝试，都可以看作是向手机+AI Agent方向的前进，只是各个厂商的具体技术实现方式、能力侧重以及宣传话术不同。

对于消费者来说，如果你是深度手机用户，今天可能已经到了尝鲜智能体的时机，但如果并没有被传统交互方式困扰等问题，或许还可以让智能体手机再成熟一些。

至少AI Agent这颗果子，目前看来有着硕大无朋的潜力。

AI大模型与手机的结合方案有很多，但个人认为，二者的最佳结合点其实是很明确的，那就是无障碍能力。

AI大模型的核心功能之一，就是在图像、音频、文字几种不同的媒介间进行转换，而这恰好也是视障、听障人群最为需要的。因此，当有人认为AI大模型与手机结合并不必要时，我会说看看无障碍能力的长足进展就能知道，AI手机必有未来。

通过与很多听障、视障朋友的交流，以及对相关机构的采访，发现大家都希望实名表扬华为和vivo。早些年普遍认为苹果的无障碍能力很好，但现在已经是华为和vivo在引领端侧无障碍能力的发展，尤其是AI时代的无障碍升级。

比如说，vivo通过AI技术为听障、视障人群和老年人提供了一系列帮助。去年，vivo的“手语翻译官”软件获得了CCL2024手语数字人翻译质量评测第一名。今年，vivo还升级了“手语学习”功能，推动手语的教育普及。

鸿蒙系统的发展，每一步都伴随着对端侧无障碍事业的大力投入。比如HarmonyOS 4就推出了助听器直连功能。在华为开发者大会2023期间，推出了能帮助视障人群识别具体场景与物品的小艺看世界。而在今年，HarmonyOS NEXT则在业界率先推出了小艺声音修复功能，它利用AI技术对语言障碍者的声音进行实时分析、修复和优化，不仅能够发出可懂音，还能尽可能保留用户音色。这个功能专为四级和三级言语障碍人群设计，可以实现无需文本输入的声音修复，极大拓展了端侧无障碍能力的边界。

对于很多用户来说，手机里的AI能力或许是锦上添花，但对于有障碍群体来说，AI手机或许就是改变生活乃至生命的钥匙。

仅为此，AI也必须在手机中存在，壮大，盛放。