“人手一个贾维斯”的愿望,正在被“视频通话”功能带进现实

原创 Alter聊科技 2024-08-30 11:39

为什么头部的大模型厂商都在死磕“视频通话”功能,对用户体验有什么影响,“人手一个贾维斯”的愿望能否照进现实?

撰文张贺飞
编辑沈菲菲

2011年的iPhone 4s发布会上,Siri以智能语音助手的身份初次亮相,成为整场发布会上最大的亮点。

当时许多人还未曾体验过Siri的服务,但从媒体报道中建立了一个朴实的愿望:就像《钢铁侠》中的贾维斯一样,每个人都将拥有自己的智能助手,可以实时沟通,帮助我们解决各种问题。

即使Siri后来“跌落神坛”,人们对于“贾维斯”的期望始终没有抹灭。AlphaGo、智能音箱、大模型……每一次现象级的创新背后,总有人在讨论:《钢铁侠》中的贾维斯,离我们的生活还有多远?

2024年大概率是愿望成真的一年。

7月末,OpenAI宣布向部分付费用户开放GPT-4o的视频通话版本能够即时与GPT进行视频交互问答,通过摄像头识别画面,在线解答各种问题,比如实时翻译、解线性方程题等。

8月29日,智谱AI官宣智谱清言APP上线“视频通话”功能,成为首个可以通过文本、音频、图像和视频来进行多模态互动和实时推理的AI助手。目前已经向部分用户开放,并且开放了外部申请权限,将持续迭代并逐步放开规模。

由此产生的一个话题是:为什么头部的大模型厂商都在死磕“视频通话”功能,对用户体验有什么影响,“人手一个贾维斯”的愿望能否照进现实?

01.
解锁AI新体验

大模型引发的新一轮技术热潮已经持续了近两年时间,市场上出现了形形色色的AI助手,人机交互却被“束缚”在了对话框中,停留在文本输入的阶段。某些产品推出了语音对话功能,但较高的延迟导致体验不佳,而且无法理解语调起伏、笑声等表达的情感信息,仅仅是用语音替代文本输入。

我们提前一天体验到了智谱清言APP的“视频通话”功能,在内测群里和其他进行了简单交流,发现了一些有趣的应用场景:

第一个场景是作业辅导。


不同于OpenAI发布会上演示的简单方程组解答,有群友直接将智谱清言用于孩子的作业辅导:

比如小学数学的互余角计算,智谱清言迅速理解了视频中题目的语义,并将问题进行了拆解,一步步引导孩子去计算,当孩子给出正确的答案后,智谱清言还在第一时间给出了“太棒了”的鼓励。

而在英语教学的场景中,孩子用笔在纸上圈出了某个单词,智谱清言精准识别到了圈住的词汇,并给出了正确的发音,甚至在孩子的朗读出现错误时,“耐心”地进行了读音矫正,就像是一个坐在孩子身边的“英语老师”。

第二个场景是产品介绍。


有时买到的商品是英文包装,可能看不懂使用说明和注意事项,是否可以用“视频通话”功能填补信息差呢?

我们将摄像头对准了星巴克买来的一款咖啡豆,因为存在折痕,一些英文字母出现了变形,但智谱清言依然准确识别出了商品信息,包括产品名称、配料、产地、风味、品牌等基础内容。

接下来询问了咖啡豆的制作和储存建议,即便是远远超出视频画面中的信息,智谱清言同样给出了确切的答案:做美式超合适,味道正好;保存咖啡豆要放在阴凉干燥的地方,避免受潮或晒太阳......

第三个场景是厨房助手。


因为每天中午都面临“吃什么”的烦恼,于是萌生了一个想法:让智谱清言识别菜品,并给出建议的菜谱和制作方法。

我们同时将白菜、干辣椒、大蒜和生姜放在案板上,然后询问都要哪些食材,可以用来做什么菜。没想到的是,智谱清言准确说出了每一种食材的种类,并给出了辣椒炒白菜的建议。

进一步询问应该怎么做,智谱清言详细给出了锅热加油、姜蒜炒香、加入红辣椒、香味出来后切好的白菜等一整套流程。而当我们进一步询问“做醋溜白菜还需要哪些食材”时,智谱清言的答案再次让人惊艳:“做醋溜白菜的话,还需要点醋和糖”。

可以看到,上面的几个“小儿戏”并不能难倒智谱清言,比答案更重要的其实是整个问答的过程:不仅能够准确识别摄像头拍摄到的内容,听懂语音指令并准确执行,即使打断它也能迅速给出反应。相较于机械式的一问一答,在体验上越来越接近人与人的自然交流。

02.
到底难在哪里

对智谱清言APP的“视频通话”功能做个总结的话,主要解决了三个痛点:

1、新的信息输入模式,不再局限于文字和语音,而是文本、图像、音频和视频等多个模态,AI可以自己“看世界”了;

2、新的对话交流模式,过去的对话交流大多是一问一答式的,合理但不符合真实习惯,现在已经可以做到“随时打断”;

3、新的人机交互场景,简单高于一切,视频和语音带来了近乎零门槛的用户教育,意味着人机交互可能迎来革命性更新。

上面提到的情景,曾不只一次出现在科幻电影中。除了前面提到的《钢铁侠》,《流浪地球》《Her》《银翼杀手2047》等电影中都有类似的桥段。因为最符合人类习惯的交互,从来都不是键盘,而是对话。

要实现“视频通话”功能,到底难在哪里呢?就大模型而言,必须要满足两个方面的能力要求。

首先是多模态能力。

简单来说,模态就是信息输入和输出的表现形式,包括文字、图像、语音、视频等等。为什么多模态能力重要呢?因为人类认识世界的方式本身就是多模态,眼睛、耳朵、嘴巴、手脚等承载了不同的信息感知,AI想要替代人类的工作,帮助人类学习、认识和理解这个世界,前提正是多模态数据处理能力。



其次是模型推理速度。

人类对话的普遍间隔时间是250毫秒,偏离这个间隔越久,交互就越“不自然”,体验也就越“不爽”。目前大模型存在的问题在于:推理时长往往在3秒以上,直接影响了用户体验和业务效率。OpenAI曾公开GPT-4o的语音延迟数据,平均为 320 毫秒,智谱AI尚未公布详细数字,但实际体验和GPT-4o相当。

也就是说,大模型的竞争就是一场开卷考试,追求的目标一致,且路径逐渐清晰,比拼的其实是技术硬实力。

以智谱清言为例,之所以成为国内首个面向C端开放“视频通话”功能的产品,离不开两个核心优势:



一个是时间上的先发优势。早在2021年3月,智谱AI团队就推出了GLM系列大模型,2021年5月推出了推出了将中文文字生成图像的文生图模型CogView,2022年在CogView2的基础上研发了视频生成模型CogVideo……超过国内同行近两个的时间优势,让智谱AI在多模态能力上有着更深的沉淀。

另一个是能力上的领先优势。比如智谱AI联合清华KEG潜心打磨的CogVLM-17B,在多个数据集上获得了SOTA或第二名的成绩;新推出的GLM-4V-Plus,在MVBench、LVBench、OCRBench、MMVET等多个基准测试中的表现超过GPT-4o和Gemini 1.5Pro,达到国际先进水平。

03.
“盛宴”刚刚开始

也许在一些人眼中,“视频通话”不过是一项寻常的功能创新,放诸到商业语境里,却有着不可小觑的作用。和每一次风口出现时一样,大模型的概念刚走红时,创业者们一窝蜂地涌入,试图在新一轮的创业潮中搏一个机会。可直到现在,市场上还没有跑出一款真正意义上的杀手级产品。

不少人将ChatGPT的走红视作“AI的iPhone时刻”,可初代iPhone的销量只有700万台,并未改写诺基亚统治市场的格局;让无数开发者从中获利的App Store,则要追溯到2008年发布的iPhone 3G。

初代iPhone的“历史价值”,其实是电容屏和多点触控。



诺基亚和摩托罗拉也曾推出多“大屏”手机,但采用的是电阻屏,需要用触控笔才能操作,导致使用门槛高且场景有限。相比之下,多点触控的电容屏允许用户直接用手指操作、输入和互动,极大地降低了用户的学习成本,赋予了开发者更大的想象空间,进而才有了移动互联网的繁荣。

沿循这样的逻辑,“对话框”就像是电阻屏,“视频通话”功能让大模型的人机交互进化到了电容屏时代。

个中差别并不难解释。

作为一个深度使用大模型能力的普通用户,之前我们的需求主要集中在文本生成、图像生成和视频生成,比如让AI写简单的视频脚本、生成文章配图和视频素材,核心场景并未脱离“工作”的范畴。

体验了智谱清言的“视频通话”功能后,我们深切地感受到:多模态能力和毫秒级的推理速度,在生活中有着无处不在的应用场景,比如出国旅游时打开摄像头将餐厅的菜单翻译成中文、工作面试前让AI扮演面试官提前模拟面试、早上出门时打开视频询问今天的穿着怎么样、吃零食前先让AI识别计算卡路里……对应的生活场景不可计数。



对于开发者而言,“卷模型还是卷应用”的争论有了确切的答案:大模型打破能力上的枷锁后,开发者可以在更多场景中开发有价值的应用。

譬如我们曾走访过一家工业企业,为了解决大型机械设备的维修问题,这家企业采用了AR眼镜+远程工程师的模式,即由当地工作人员戴着AR眼镜采集实时数据,后端的维修工程师进行远程指导,在一定程度上节约了工程师的差旅和时间成本,但培养一个工程师的时间成本近乎无解。

现在无疑有了新的解法:这家企业可以将工程师的经验和知识用于训练专有大模型,然后通过“视频通话”功能为现场员工赋能,在AI的指导下一步步解决问题,每个人都能拥有资深工程师的能力。

把思维再发散一些的话,几乎所有的场景,都可以利用“视频通话”能力重新做一遍,包括但不限于作业辅导、英语家教、景区导览、数字客服等等,等待开发者的不再是同质化竞争的局面,而是深入一个场景做深做实。

当想象力不再被制约的时候,就是价值加速变现的拐点,也是大模型盛宴开场的积极信号。

04.
写在最后

年初的一场演讲上,智谱AI CEO张鹏曾断言:2024年一定是AGI元年,而多模态是AGI的一个起点。

2024年已经过去三分之二,回头再来审视张鹏的判断,正一步步被验证。同时也意味着,大模型行业的演进正走在一条可预见的道路上,不断在图文的基础上融合听觉、视觉等模态的认知能力,加速迈向AGI时代。

往期推荐


01

两分钟“熟读”《国史大纲》,大模型的下一个爆点是“书童”?

02

智谱AI再放“大招”,30秒将任意文字生成视频




主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 91浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 110浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 96浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 88浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 96浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 92浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 79浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 94浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 112浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 106浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 97浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 82浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦