AutoGLM的一小步,人机交互进化的一大步

原创 Alter聊科技 2024-11-29 12:53

只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。

撰文张贺飞
编辑沈菲菲

55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。

过去几十年里,很多人曾引用过这句话,用来定格某个历史性时刻。今天,我们想把这句话套用到智谱的AutoGLM上。

11月29日的智谱Agent OpenDay上,对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC,以及一个多月前“剧透”过的AutoGLM,也是智谱第一个产品化的智能体Agent。

短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展:
AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务;

AutoGLM开启“全自动”上网新体验,支持等数十个网站的无人驾驶;

像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。
同时AutoGLM 启动了大规模内测,将尽快上线成为面向 C 端用户的产品,并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。

01.
AutoGLM可以做什么?

看到这里,可能不少人会疑问:什么是AutoGLM?

单从名字上看,很容易让人联想到自动驾驶,毕竟几乎每辆汽车的中控区都有一个AUTO按钮,表示该功能或设置为自动模式。

顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。

为了方便大家理解,我们提前做了一波测试:


对于不方便看视频的小伙伴,这里大致说一下我们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。

直接说结果,AutoGLM都准确完成了工作,几个涉及到购买的场景,只需要我们最后付款即可。稍有不足的是,遇到弹窗或需要人工确认的环节,目前AutoGLM还无法处理,需要人为操作后才能继续后面的流程。

由于时间的原因,我们的测试没有太深入,对于AutoGLM的能力升级,可以参考智谱Agent OpenDay上传递出的信息:

超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

跨 App :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。

短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。

随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?

以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。


比如AutoGLM Web能够理解用户的指令,自动为用户在网页上站内检索、多链接总结,甚至进一步实现生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。

再比如远程手机发指令,GLM-PC可以自主完成电脑操作,可以设定一个未来时间,在开机状态下定时执行任务。

想象一下:即使你在摸鱼、喝咖啡或者上厕所,你的电脑依然在工作,丝毫不会影响工作的进度。

02.
人机交互进入AI时代

当然,让我们印象深刻的,并非是AutoGLM所实现的能力,而是对人机交互模式的巨大冲击,基于自然语言的人机交互已经是现在进行时。

小时候上“微机课”,老师经常挂在嘴边的一句话就是:“你们要学会用电脑。”

之所以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面,想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步,人与机器的协作依然是一件高门槛的事,特别是一些专业软件,想要完成某个任务需要很多个步骤,过程中充斥着机械性的重复劳动。

AutoGLM目前的功能还很基础,却拉开了人机交互进化的序幕:借助于大模型的强大能力,只需要一句话,AI就能自动帮我们处理复杂的任务,人机协作的门槛进一步降低。

不再是人被动适应机器,而是让机器理解人类。

试图打破人机交互僵局的,不只是国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即将发布的Operator,都在朝同样的方向进行创新。

问题来了,大模型距离重塑人机交互范式还有多远呢?

自动驾驶领域有L1—L5的能力划分,OpenAI、智谱等企业也提出了类似的技术阶段:L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力,最终做到像人一样理解界面、规划任务、使用工具、完成任务。

“坏消息”在于,目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

“好消息”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景出发,分享了他们对智能终端的实践及展望。

也就是说,大模型重塑人机交互范式,绝非是大模型企业的愿景,而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升,将能调用越来越多的应用,适配越来越多的系统,实现越来越复杂的连贯自主操作。


另一个不应该忽略的信息是:端侧算力正在持续提升,智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构,意味着Agent不仅将在应用上实现用户体验变革,还能将推广到各类智能设备上,手机+AI、PC+AI、汽车+AI等将不断涌现。

03.
写在最后

在大模型的概念刚走红时,就有人将其比作是“操作系统”。

至少从AutoGLM的表现来看,即便只是在用户和应用之间增加一个智能调度层,已经有了GLM-OS(以大模型为中心的通用计算系统)的雏形。倘若能够进一步实现原生的人与机器交互,将从根本上改变人机交互模式,所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。

值得期待的是,著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一,预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。

往期推荐


01

全面升级的“新清影”,给AI生成视频带来了哪些新玩法?

02

我们用GLM-4-Plus搞了个“阅读智能体”,工作效率提升了300%


Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 165浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 32浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 36浏览
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 175浏览
  • 在测试XTS时会遇到修改产品属性、SElinux权限、等一些内容,修改源码再编译很费时。今天为大家介绍一个便捷的方法,让OpenHarmony通过挂载镜像来修改镜像内容!触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。挂载镜像首先,将要修改内容的镜像传入虚拟机当中,并创建一个要挂载镜像的文件夹,如下图:之后通过挂载命令将system.img镜像挂载到sys
    Industio_触觉智能 2025-01-03 11:39 113浏览
  • 影像质量应用于多个不同领域,无论是在娱乐、医疗或工业应用中,高质量的影像都是决策的关键基础。清晰的影像不仅能提升观看体验,还能保证关键细节的准确传达,例如:在医学影像中,它对诊断结果有着直接的影响!不仅如此,影像质量还影响了:▶ 压缩技术▶ 存储需求▶ 传输效率随着技术进步,影像质量的标准不断提高,对于研究与开发领域,理解并提升影像质量已成为不可忽视的重要课题。在图像处理的过程中,硬件与软件除了各自扮演着不可或缺的基础角色,有效地协作能够确保图像处理过程既高效又具有优异的质量。软硬件各扮演了什么
    百佳泰测试实验室 2025-01-03 10:39 143浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 121浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 164浏览
  • 本文继续介绍Linux系统查看硬件配置及常用调试命令,方便开发者快速了解开发板硬件信息及进行相关调试。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。查看系统版本信息查看操作系统版本信息root@ido:/# cat /etc/*releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDIS
    Industio_触觉智能 2025-01-03 11:37 138浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 30浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 162浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 23浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 37浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦