作家:Alter
55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句肤浅的话:“这是个东谈主的一小步,却是东谈主类的一大步。”
曩昔几十年里,许多东谈主曾援用过这句话,用来定格某个历史性时刻。今天,咱们想把这句话套用到智谱的AutoGLM上。
11月29日的智谱Agent OpenDay上,对外公测或内测了三个家具——浏览器插件AutoGLM Web、电脑智能体大模子GLM-PC,以及一个多月前“剧透”过的AutoGLM,亦然智谱第一个家具化的智能体Agent。
短短一个月的时期,AutoGLM的才能不再局限于点外卖、一又友圈点赞,带来了多个新进展:
AutoGLM 不错自主实施卓著 50 步的长纪律操作,也不错跨App实施任务;AutoGLM开启“全自动”上网新体验,接济等数十个网站的无东谈主驾驶;像东谈主一样操作计较机的GLM-PC启动内测,基于视觉多模态模子已矣通用Agent的时刻探索。
张开剩余83%同期AutoGLM 启动了大界限内测,将尽快上线成为面向 C 端用户的家具,并文书启动“10个亿级 APP 免费 Auto 升级”的盘算推算。
01 AutoGLM不错作念什么?
看到这里,可能不少东谈主会疑问:什么是AutoGLM?
单从名字上看,很容易让东谈专揽预料自动驾驶,毕竟险些每辆汽车的中控区齐有一个AUTO按钮,示意该功能或缔造为自动模式。
顾名想义,AutoGLM的场景恰是用AI放置手机,只需要一句语音教唆,AutoGLM即可模拟东谈主类操作手机来完好任务。AI从惟有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。
为了便捷全球判辨,咱们提前作念了一波测试。
关于不便捷看视频的小伙伴,这里大要说一下咱们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新实质辩驳、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。
平直说遵循,AutoGLM齐准确完成了使命,几个触及到购买的场景,只需要咱们终末付款即可。稍有不及的是,遭遇弹窗或需要东谈主工证据的关节,当前AutoGLM还无法科罚,需要东谈主为操作后才能链接背面的经由。
由于时期的原因,咱们的测试莫得太深入,关于AutoGLM的才能升级,不错参考智谱Agent OpenDay上传递出的信息:
超长任务:判辨超长教唆,实施超长任务。举例,在采购暖锅食材的例子中,AutoGLM 自主实施了 54步无打断操作。况且,在这种多步、轮回任务中,AutoGLM 的速率推崇卓著东谈主手动操作。
跨 App :AutoGLM 接济跨 App 来实施任务。用户将风气于 AI 自动科罚,而不是在多个 APP 间往返切换。由于当前 AutoGLM 款式更像是用户和利用间的APP实施的退换层,因此跨 App 才能是内部相等环节的一步。
短口令:AutoGLM 大约接济长任务的自界说短语。今天,你无须再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五谈口店,大杯、热、微糖” 这类超长教唆,只需要说“点咖啡”。
粗放模式:咱们齐会堕入采选胆怯,AutoGLM 今天不错主动帮你作念出有酌量。粗放模式下通盘纪律齐让 AI 有酌量,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?
依此类推,AutoGLM Web和GLM-PC的才能和AutoGLM相似,面向的场景分别是浏览器和电脑端,况且有一些智妙手机上作念不到的功能。
比如AutoGLM Web大约判辨用户的教唆,自动为用户在网页上站内检索、多一语气回首,甚而进一步已矣生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。
再比如而已手机发教唆,GLM-PC不错自主完成电脑操作,不错设定一个改日时期,在开机景况下定时实施任务。
假想一下:即使你在摸鱼、喝咖啡或者上茅厕,你的电脑依然在使命,涓滴不会影响使命的程度。
02 东谈主机交互插足AI期间
虽然,让咱们印象久了的,并非是AutoGLM所已矣的才能,而是对东谈主机交互模式的庞杂冲击,基于当然谈话的东谈主机交互也曾是当前进行时。
小时候上“微机课”,本分频频挂在嘴边的一句话便是:“你们要学会用电脑。”
之是以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去合乎每一个利用的复杂界面,想要编写尺度还需要从0初始学一门编程谈话。尽管这些器具在束缚逾越,东谈主与机器的和解依然是一件高门槛的事,绝顶是一些专科软件,想要完成某个任务需要许多个纪律,过程中充斥着机械性的重叠就业。
AutoGLM当前的功能还很基础,却拉开了东谈主机交互进化的序幕:借助于大模子的强盛才能,只需要一句话,AI就能自动帮咱们科罚复杂的任务,东谈主机和解的门槛进一步裁减。
不再是东谈主被迫合乎机器,而是让机器判辨东谈主类。
试图冲破东谈主机交互僵局的,不仅仅国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI行将发布的Operator,齐执政雷同的宗旨进行更动。
问题来了,大模子距离重塑东谈主机交互范式还有多远呢?
自动驾驶领域有L1—L5的才能诀别,OpenAI、智谱等企业也提倡了雷同的时刻阶段:L1是谈话才能、L2是逻辑才能(多模态才能)、L3是使用器具的才能、L4是自我学习才能,最终作念到像东谈主一样判辨界面、酌量任务、使用器具、完成任务。
“坏音讯”在于,当前大模子才能还处于低级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极地面普及 L3 使用器具才能,同期开启对 L4 自我学习才能的探索。”
“好音讯”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景开拔,共享了他们对智能终局的推行及瞻望。
也便是说,大模子重塑东谈主机交互范式,绝非是大模子企业的愿景,而是包含终局厂商、芯片厂商在内的产业高卑劣的共鸣。跟着AutoGLM才能的普及,将能调用越来越多的利用,适配越来越多的系统,已矣越来越复杂的连贯自主操作。
另一个不应该忽略的信息是:端侧算力正在捏续普及,智谱趁势推出了为AI原生缔造适配的模子和端云同源的协同架构,意味着Agent不仅将在利用上已矣用户体验变革,还能将扩充到各类智能缔造上,手机+AI、PC+AI、汽车+AI等将束缚线路。
03 写在终末
在大模子的主张刚走红时,就有东谈主将其比作是“操作系统”。
至少从AutoGLM的推崇来看,即便仅仅在用户和利用之间增多一个智能退换层,也曾有了GLM-OS(以大模子为中心的通用计较系统)的雏形。倘若大约进一步已矣原生的东谈主与机器交互,将从根蒂上窜改东谈主机交互模式,通盘东谈主齐不错用当然谈话操作手机、电脑、汽车、眼镜等等。
值得期待的是赌钱赚钱官方登录,有名调研机构Gartner也曾将agentic AI列为2025年十大时刻趋势之一,预测2028年至少有 15%的正常使命有酌量将由agentic AI自主完成。
发布于:江西省