
智东西
作者 | 杨京丽
编辑 | 李水青
智东西4月14日消息,今天,MiniMax为其桌面端Agent上线两项新功能:Pocket(Beta)和Computer Use。简单来说,Pocket让用户可以在飞书、微信、Slack等主流IM里,远程给Agent下指令,Computer Use则能让Agent能像人一样看屏幕、点鼠标、敲键盘,直接操作电脑上的本地软件和系统设置。
上周,MiniMax发布了命令行工具MMX-CLI,让Agent可以在终端中调用其全模态能力。今天这次更新补上了图形界面侧的操作能力,并通过IM构建了一个统一的远程入口,用户不在电脑前,也能通过手机随时唤起Agent干活。
一、Pocket打通IM远程操控,Computer Use接管图形界面
Pocket是一项IM接入能力,用户在飞书、微信等IM中唤起Pocket发送指令,Agent即可在其电脑上执行任务,完成后将结果回传至对话。核心场景是远程操控,用户不在电脑前,也能通过手机调度桌面Agent。
Computer Use则让Agent具备操作图形界面的能力,通过截图识别屏幕内容,模拟鼠标和键盘操作本地软件。那些没有命令行接口的任务,比如改系统偏好设置、操作本地设计工具、在多个应用间手动搬运数据,现在都可以交给Agent完成。
MiniMax展示了几个IM与Computer Use组合使用的场景。
1、远程找文件。
提示词:帮我看下我桌面上是不是有一个2025 report的PDF?找到并发给我。
Agent远程找文件(来源:MiniMax)
这是一个比较基础的应用场景。Agent在用户电脑桌面上定位到目标文件后,直接回传到IM对话中。整个流程不需要用户打开电脑。从实际演示来看,Agent能准确识别文件名中的关键词并完成定位,通过对话将正确的文件发给用户。
2、操作本地应用与系统设置,执行定时任务。
提示词:帮我打开系统设置,找到锁定屏幕,把不活跃时启动屏幕保护程序设为永不。然后打开Pocket客户端执行每日定时任务,完成后给我一张截图。

由于系统偏好设置没有公开的命令行接口,这些操作只能通过图形界面完成。Agent基于Computer Use打开系统设置、定位到“锁定屏幕”面板、调整下拉菜单,随后启动客户端执行任务,最后截图回传。整个过程可在IM中完整查看Agent的每一步操作,后续也按照要求完成了定时任务。
二、技术实现:桌面操作拆分,可调度工具总数超60个
目前主流的Computer Use实现方式是给Agent一个统一的“computer”工具,所有操作都靠截图加像素坐标完成,先截一张屏幕,识别出目标位置的像素坐标,再模拟点击。这种方式结构简单,但精度有限,比如让模型去数像素点一个按钮,不如直接调用系统接口来得准。
MiniMax的做法是把桌面操作拆分成四个独立的工作:
1、Desktop Control负责截图、鼠标操作(含修饰键组合)、键盘输入、滚动、拖拽;
2、Window Manager负责窗口列表查询、聚焦、最小化/最大化、关闭、移动缩放及应用启动;
3、Browser Engine负责DOM操作、CSS选择器定位、JavaScript执行和结构化导航;
4、Clipboard负责系统剪贴板读写。
Agent执行任务时会根据场景自动选择最合适的工具,比如切换窗口直接调系统接口,不用先截图再找窗口按钮在哪。这四套工具再加上飞书、企业微信、mmx三套平台工具以及命令行工具,Agent可调度的工具总数超过60个。
屏幕适配方面,不同用户的显示器分辨率差异很大,同一个按钮在4K屏上和1080p屏上的像素位置完全不同。MiniMax的处理方式是让模型只输出相对位置,由系统自动换算成实际坐标。截图也会根据模型能处理的画面上限做缩放,避免高分屏信息过载、低分屏画面模糊。
三、截图验证每一步,敏感操作需IM确认
真实任务往往需要数十步甚至上百步连续操作,单步偏差可能导致后续全部失败。MiniMax为此给每一步桌面操作接入了验证环节:操作执行完后立刻自动截图,由模型判断该步是否成功。
符合预期则推进下一步;未达预期则进入诊断流程,识别失败原因并尝试替代方案,比如鼠标点不到的按钮换用键盘快捷键。若在一定重试次数内仍未解决,Agent会主动告知用户具体卡在哪一步,而非继续盲目尝试。
安全权限方面,当Agent准备执行文件删除等敏感操作时,会先暂停,将该步的具体内容推送到用户的IM对话中。在飞书和Slack中会弹出一张交互卡片,用户点击即可授权或拒绝;微信等不支持交互组件的平台则通过文本指令完成授权。任务执行过程中,用户也可随时发送指令中止Agent。
结语:Agent操作电脑从演示走向产品化
从OpenClaw爆火,Anthropic推出Computer Use,到如今MiniMax将类似能力落地到桌面端并接入IM,AI Agent“操作电脑”正在从技术演示走向实际场景。但从目前各家的进展来看,这项能力仍处于早期,复杂界面下的识别精度、长任务中的稳定性、面对陌生软件时的泛化能力,都是共性难题。
MiniMax这次更新提供了一条具体的产品化路径:用IM做入口降低使用门槛,用工具域拆分提升操作精度,用逐步验证兜住多步任务的可靠性。至于这套方案在真实用户场景中能走多远,还需要更大范围的使用反馈来验证。