AutoGLM的一小步，人机交互进化的一大步

原创 Alter聊科技 2024-11-29 12:53

【TI资料】基于新型C29内核的MCU技术资料 如何提升高压系统的实时性能?

只需要一句语音指令，AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot，正在进化为“有手、有脑、有眼睛”的自主Agent。

撰文｜张贺飞

编辑｜沈菲菲

55年前，左脚刚刚踏上月球的阿姆斯特朗，说了一句简单的话：“这是个人的一小步，却是人类的一大步。”

过去几十年里，很多人曾引用过这句话，用来定格某个历史性时刻。今天，我们想把这句话套用到智谱的AutoGLM上。

11月29日的智谱Agent OpenDay上，对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC，以及一个多月前“剧透”过的AutoGLM，也是智谱第一个产品化的智能体Agent。

短短一个月的时间，AutoGLM的能力不再局限于点外卖、朋友圈点赞，带来了多个新进展：

AutoGLM 可以自主执行超过 50 步的长步骤操作，也可以跨App执行任务；

AutoGLM开启“全自动”上网新体验，支持等数十个网站的无人驾驶；

像人一样操作计算机的GLM-PC启动内测，基于视觉多模态模型实现通用Agent的技术探索。

同时AutoGLM 启动了大规模内测，将尽快上线成为面向 C 端用户的产品，并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。

01.

AutoGLM可以做什么？

看到这里，可能不少人会疑问：什么是AutoGLM？

单从名字上看，很容易让人联想到自动驾驶，毕竟几乎每辆汽车的中控区都有一个AUTO按钮，表示该功能或设置为自动模式。

顾名思义，AutoGLM的场景正是用AI控制手机，只需要一句语音指令，AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot，正在进化为“有手、有脑、有眼睛”的自主Agent。

为了方便大家理解，我们提前做了一波测试：

对于不方便看视频的小伙伴，这里大致说一下我们测试的四个场景：分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。

直接说结果，AutoGLM都准确完成了工作，几个涉及到购买的场景，只需要我们最后付款即可。稍有不足的是，遇到弹窗或需要人工确认的环节，目前AutoGLM还无法处理，需要人为操作后才能继续后面的流程。

由于时间的原因，我们的测试没有太深入，对于AutoGLM的能力升级，可以参考智谱Agent OpenDay上传递出的信息：

超长任务：理解超长指令，执行超长任务。例如，在采购火锅食材的例子中，AutoGLM 自主执行了 54步无打断操作。并且，在这种多步、循环任务中，AutoGLM 的速度表现超过人手动操作。

跨 App ：AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理，而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层，因此跨 App 能力是里面非常关键的一步。

短口令：AutoGLM 能够支持长任务的自定义短语。今天，你不用再给AutoGLM说：“帮我买一杯瑞幸咖啡，生椰拿铁，五道口店，大杯、热、微糖” 这类超长指令，只需要说“点咖啡”。

随便模式：我们都会陷入选择恐惧，AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策，带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味？

以此类推，AutoGLM Web和GLM-PC的能力和AutoGLM相似，面向的场景分别是浏览器和电脑端，并且有一些智能手机上做不到的功能。

比如AutoGLM Web能够理解用户的指令，自动为用户在网页上站内检索、多链接总结，甚至进一步实现生成arXiv日报，搭建Github仓库，在微博超话签到等个性化功能。

再比如远程手机发指令，GLM-PC可以自主完成电脑操作，可以设定一个未来时间，在开机状态下定时执行任务。

想象一下：即使你在摸鱼、喝咖啡或者上厕所，你的电脑依然在工作，丝毫不会影响工作的进度。

02.

人机交互进入AI时代

当然，让我们印象深刻的，并非是AutoGLM所实现的能力，而是对人机交互模式的巨大冲击，基于自然语言的人机交互已经是现在进行时。

小时候上“微机课”，老师经常挂在嘴边的一句话就是：“你们要学会用电脑。”

之所以会出现一个“学”字，因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面，想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步，人与机器的协作依然是一件高门槛的事，特别是一些专业软件，想要完成某个任务需要很多个步骤，过程中充斥着机械性的重复劳动。

AutoGLM目前的功能还很基础，却拉开了人机交互进化的序幕：借助于大模型的强大能力，只需要一句话，AI就能自动帮我们处理复杂的任务，人机协作的门槛进一步降低。

不再是人被动适应机器，而是让机器理解人类。

试图打破人机交互僵局的，不只是国内的智谱，苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis，以及OpenAI即将发布的Operator，都在朝同样的方向进行创新。

问题来了，大模型距离重塑人机交互范式还有多远呢？

自动驾驶领域有L1—L5的能力划分，OpenAI、智谱等企业也提出了类似的技术阶段：L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力，最终做到像人一样理解界面、规划任务、使用工具、完成任务。

“坏消息”在于，目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法，“Agent 将极大地提升 L3 使用工具能力，同时开启对 L4 自我学习能力的探索。”

“好消息”则是，在智谱Agent OpenDay上，荣耀、华硕、小鹏、高通、英特尔等，分别从不同的场景出发，分享了他们对智能终端的实践及展望。

也就是说，大模型重塑人机交互范式，绝非是大模型企业的愿景，而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升，将能调用越来越多的应用，适配越来越多的系统，实现越来越复杂的连贯自主操作。

另一个不应该忽略的信息是：端侧算力正在持续提升，智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构，意味着Agent不仅将在应用上实现用户体验变革，还能将推广到各类智能设备上，手机+AI、PC+AI、汽车+AI等将不断涌现。

03.

写在最后

在大模型的概念刚走红时，就有人将其比作是“操作系统”。

至少从AutoGLM的表现来看，即便只是在用户和应用之间增加一个智能调度层，已经有了GLM-OS（以大模型为中心的通用计算系统）的雏形。倘若能够进一步实现原生的人与机器交互，将从根本上改变人机交互模式，所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。

值得期待的是，著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一，预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。

往期推荐

全面升级的“新清影”，给AI生成视频带来了哪些新玩法？

我们用GLM-4-Plus搞了个“阅读智能体”，工作效率提升了300%

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

Alter聊科技探究产业兴衰,专注商业解读。

进入专栏

Alter聊科技探究产业兴衰,专注商业解读。

文章：153篇粉丝：1人

 私信

AutoGLM的一小步，人机交互进化的一大步

最近文章

热门文章

推荐

最新资讯