AutoGLM是智谱AI于2025年12月9日正式开源的核心AI Agent模型,这是一个具备"Phone Use"(手机操作)能力的智能体框架,能够通过视觉语言模型理解手机屏幕内容,并模拟人类操作完成跨应用复杂任务。该项目的开源标志着AI智能体技术从实验室走向大众,为开发者提供了构建手机Agent的完整技术底座。
一、核心能力与技术架构
AutoGLM的核心突破在于实现了从"对话"到"执行"的跨越。与传统仅能回答问题的AI助手不同,AutoGLM能够真正"动手做事",在云端自主完成跨应用、多步骤的复杂任务流程。其技术架构基于智谱自研的GLM-4.5语言模型和GLM-4.5V视觉推理模型,采用"视觉大模型+ADB指令"的组合方式:先通过视觉模型看懂屏幕内容,再调用ADB指令模拟真人点击滑动,实现类人操作。
项目采用"思考-执行"闭环机制,通过四层架构实现能力升级:GLM-4基座模型提供多语言理解能力,GLM-Z1推理增强强化数学计算与逻辑拆解,GLM-Z1-Rumination反思模块引入强化学习机制,AutoGLM智能体系统整合感知、推理、执行模块形成完整任务处理框架。这种设计使得AI能够独立完成学术研究、商业策略分析等专业任务,突破传统模型碎片化应答的局限。
二、应用场景与功能特性
AutoGLM目前已支持微信、淘宝、抖音、美团、小红书、12306等超过50个高频中文应用的核心场景,覆盖生活服务、办公生产力、社交媒体管理等多个维度。
生活服务场景:用户只需一句指令,AutoGLM即可操作抖音、小红书、美团、京东等应用,实现点餐、订票、查询房源、预约服务等一系列操作。例如,用户说"帮我点一杯瑞幸咖啡",系统会自动打开美团或饿了么,定位附近店铺,选择商品并完成下单,仅需最后一步付款确认。
办公生产力场景:能够跨应用执行全流程任务——从检索资料、撰写文稿,到生成视频、PPT或播客内容,并完成最终发布。在WebArena-Lite评测中,AutoGLM较GPT-4o取得了约200%的性能提升,在AndroidLab基准测试中成功率36.2%,超越同类产品。
复杂流程自动化:支持自动完成长达54步的火锅食材采购流程、跨平台比价下单瑞幸咖啡等复杂任务。通过浏览器插件AutoGLM-Web,还支持学术检索(自动筛选北大核心期刊)、代码仓库搭建(GitHub)、视频平台自动打卡等功能。
三、技术优势与创新突破
AutoGLM在多个方面实现了技术创新突破:
图形用户界面自主控制:能够理解并操作图形用户界面,无需API接口,直接模拟人类操作。这种"类人操作"让APP厂商的代码检测防御形同虚设,解决了传统依赖无障碍服务的脚本工具的局限性。
任务规划与动作执行解耦:通过自然语言中间界面,将任务规划与动作执行分离,提升灵活性和精确度。这种解耦合架构使得系统能够根据用户意图动态调整操作策略,适应不同的场景和需求。
自进化在线课程强化学习:采用ComputerRL、MobileRL和AgentRL等强化学习算法,通过动态调整任务难度,持续改进性能,适应复杂任务。在Device Use基准测试中,AutoGLM的表现优于ChatGPT Agent和Claude 4 Sonnet,跻身当前主流智能体的先进水平。
多模态大模型应用:结合视觉感知与语言理解,实现对GUI的深度理解。GLM-4.5V视觉模型(106B总参数)作为"视觉执行器",实现GUI界面元素识别、文档内容提取到操作落地的全流程闭环。
四、开源价值与生态影响
AutoGLM的开源具有里程碑意义,它打破了"会用手机的AI能力"只掌握在极少数厂商手中的局面,将这一能力变成整个行业可以共同拥有、共同打磨的公共底座。开发者可以基于AutoGLM构建自己的AI助手,无需从零开始研发核心技术。
隐私与数据安全:通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限,让手机成为专属自己的AI手机。AutoGLM支持本地与私有化部署,数据全程留存于用户设备端,还可通过云端虚拟手机实现操作审计,从根源上瓦解了大厂的围剿理由。
成本优势:通过GLM-Z1-Air轻量化模型(训练成本仅为DeepSeek-R1的1/30)与云端资源优化,单次任务成本降至0.2美元(约1.5元),较传统Agent(3-5美元)降低93%。硬件门槛低至消费级显卡,支持免费不限量使用,对比OpenAI Deep Research(月限10次)、Gemini(月限10次)的付费模式更具普惠性。
生态扩展:AutoGLM的执行能力被封装为API接口,开发者只需简单接入,即可让各类硬件首次具备完整的手机级操作能力,无需在设备端部署复杂系统或大容量电池。在官方演示中,用户已可通过Rokid智能眼镜直接下单购买咖啡。