界面新闻记者 |
界面新闻编辑 | 文姝琪
AI Agent正在变得更像一个人类,不仅可以查百科、点外卖,还可以帮你发红包、发文件和点赞朋友圈了。
“帮我面对面建一个群,数字是1129,并将群聊名字改成智谱开放日。”11月29日上午十点左右,在Agent OpenDay现场,智谱AI CEO张鹏对着手里的一台荣耀手机说道。
很快,这个微信群成立,并且迅速满员到无法再加入。随即,张鹏再次发出语音指令,“帮我在智谱开放日的群聊里发个两万的红包,数量为一百个,名字为‘AI给你发的第一个红包’。”
就这样,人类历史上第一个由AI发出的微信红包被拆开。
这就是智谱AI在今天要展示的AutoGLM能力,一个具备App、Web、PC端三种形态的助手:AutoGLM可以自主执行超过50步的长步骤操作,也可以跨app执行任务。它同时开启了“全自动”上网体验,支持等数十个网站的“无人驾驶”。另外,基于计算机操作的GLM-PC同步启动内测。
在演示片中,用户可以让它先去小红书查询火锅需要的食材,再去外卖平台自行下单。也可以对它说出“帮我给XX微信群里每个人的第一条朋友圈点赞”,接着就可以在微信群每个用户头像之间,看见手机屏幕从点进朋友圈到点赞再到退出的一连套循环操作。
超长任务、跨App和短口令,是AutoGLM目前最突出的能力,这直接决定了用户对于AI Agent的使用场景丰富度和可操作性。另外,智谱为其加入了“随便模式”,例如只说出“点咖啡”,AI可以帮忙进行一个盲选决策。
目前在PC端,智谱推出的GLM-PC开放了第一阶段内测场景,包括帮忙预订和参与会议并发送会议总结的会议替身,以及文档处理,网页搜索与总结,远程和定时操作,还有在用户工作时可自主完成工作的隐形屏幕。
不过,由于PC操作的复杂程度,智谱方面坦率表达了现有大模型能力距离真正代替大家办公还有一定距离。GLM-PC在当前版本下,用户仍需要输入非常精准的指令。
“时至今天,我想大家都已经认识到大模型不只是chatbot,其本质在于对世界的‘理解’能力以及预测能力。”张鹏表示。
与GenAI(生成式)不同,Agent是目标驱动型的,能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端地完成任务。在张鹏看来,Agent可以看作是大模型通用操作系统LLM-OS的雏形。
这使得AI Agent已经成为众多科技巨头的共同战场。例如苹果的Apple Intelligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI的Operator,这些企业已经将Agent作为产品层面的重要关注点。
至此,有行业观点认为,2025年将是Agent爆发之年。Gartner近期将agentic AI(智能体AI)列为2025年十大技术趋势之一,并预测2028年至少有15%的日常工作决策将由agentic AI自主完成,而这一数字在2024年为0。
但正如智谱自身所指出的,目前复杂操作的Agent能力还受限于模型性能,它真正的流畅度和智能程度也要等待用户实测后的反馈。但在AI大模型自身技术发展和众多终端厂商的共同推进下,张鹏眼中的“LLM-OS”有机会逐步成为下一代人机交互的主流方式。
回看移动互联网与智能手机的共创时代,这背后大概率暗藏一个C端(用户端)的入口级机会。无论现阶段软硬件协同程度和市场普及度如何,接下来,这片战场的竞争只会愈演愈烈。