MiniMax版龙虾更新：微信飞书远程操控，看屏幕点鼠标更溜了纸飞机TG账号批发老号购买-TG账号自助发货平台

智东西

作者 | 杨京丽

编辑 | 李水青

智东西4月14日消息，今天，MiniMax为其桌面端Agent上线两项新功能：Pocket（Beta）和Computer Use。简单来说，Pocket让用户可以在飞书、微信、Slack等主流IM里，远程给Agent下指令，Computer Use则能让Agent能像人一样看屏幕、点鼠标、敲键盘，直接操作电脑上的本地软件和系统设置。

上周，MiniMax发布了命令行工具MMX-CLI，让Agent可以在终端中调用其全模态能力。今天这次更新补上了图形界面侧的操作能力，并通过IM构建了一个统一的远程入口，用户不在电脑前，也能通过手机随时唤起Agent干活。

一、Pocket打通IM远程操控，Computer Use接管图形界面

Pocket是一项IM接入能力，用户在飞书、微信等IM中唤起Pocket发送指令，Agent即可在其电脑上执行任务，完成后将结果回传至对话。核心场景是远程操控，用户不在电脑前，也能通过手机调度桌面Agent。

Computer Use则让Agent具备操作图形界面的能力，通过截图识别屏幕内容，模拟鼠标和键盘操作本地软件。那些没有命令行接口的任务，比如改系统偏好设置、操作本地设计工具、在多个应用间手动搬运数据，现在都可以交给Agent完成。

MiniMax展示了几个IM与Computer Use组合使用的场景。

1、远程找文件。

提示词：帮我看下我桌面上是不是有一个2025 report的PDF？找到并发给我。

Agent远程找文件（来源：MiniMax）

这是一个比较基础的应用场景。Agent在用户电脑桌面上定位到目标文件后，直接回传到IM对话中。整个流程不需要用户打开电脑。从实际演示来看，Agent能准确识别文件名中的关键词并完成定位，通过对话将正确的文件发给用户。

2、操作本地应用与系统设置，执行定时任务。

提示词：帮我打开系统设置，找到锁定屏幕，把不活跃时启动屏幕保护程序设为永不。然后打开Pocket客户端执行每日定时任务，完成后给我一张截图。

由于系统偏好设置没有公开的命令行接口，这些操作只能通过图形界面完成。Agent基于Computer Use打开系统设置、定位到“锁定屏幕”面板、调整下拉菜单，随后启动客户端执行任务，最后截图回传。整个过程可在IM中完整查看Agent的每一步操作，后续也按照要求完成了定时任务。

二、技术实现：桌面操作拆分，可调度工具总数超60个

目前主流的Computer Use实现方式是给Agent一个统一的“computer”工具，所有操作都靠截图加像素坐标完成，先截一张屏幕，识别出目标位置的像素坐标，再模拟点击。这种方式结构简单，但精度有限，比如让模型去数像素点一个按钮，不如直接调用系统接口来得准。

MiniMax的做法是把桌面操作拆分成四个独立的工作：

1、Desktop Control负责截图、鼠标操作（含修饰键组合）、键盘输入、滚动、拖拽；

2、Window Manager负责窗口列表查询、聚焦、最小化/最大化、关闭、移动缩放及应用启动；

3、Browser Engine负责DOM操作、CSS选择器定位、JavaScript执行和结构化导航；

4、Clipboard负责系统剪贴板读写。

Agent执行任务时会根据场景自动选择最合适的工具，比如切换窗口直接调系统接口，不用先截图再找窗口按钮在哪。这四套工具再加上飞书、企业微信、mmx三套平台工具以及命令行工具，Agent可调度的工具总数超过60个。

屏幕适配方面，不同用户的显示器分辨率差异很大，同一个按钮在4K屏上和1080p屏上的像素位置完全不同。MiniMax的处理方式是让模型只输出相对位置，由系统自动换算成实际坐标。截图也会根据模型能处理的画面上限做缩放，避免高分屏信息过载、低分屏画面模糊。

三、截图验证每一步，敏感操作需IM确认

真实任务往往需要数十步甚至上百步连续操作，单步偏差可能导致后续全部失败。MiniMax为此给每一步桌面操作接入了验证环节：操作执行完后立刻自动截图，由模型判断该步是否成功。

符合预期则推进下一步；未达预期则进入诊断流程，识别失败原因并尝试替代方案，比如鼠标点不到的按钮换用键盘快捷键。若在一定重试次数内仍未解决，Agent会主动告知用户具体卡在哪一步，而非继续盲目尝试。

安全权限方面，当Agent准备执行文件删除等敏感操作时，会先暂停，将该步的具体内容推送到用户的IM对话中。在飞书和Slack中会弹出一张交互卡片，用户点击即可授权或拒绝；微信等不支持交互组件的平台则通过文本指令完成授权。任务执行过程中，用户也可随时发送指令中止Agent。

结语：Agent操作电脑从演示走向产品化

从OpenClaw爆火，Anthropic推出Computer Use，到如今MiniMax将类似能力落地到桌面端并接入IM，AI Agent“操作电脑”正在从技术演示走向实际场景。但从目前各家的进展来看，这项能力仍处于早期，复杂界面下的识别精度、长任务中的稳定性、面对陌生软件时的泛化能力，都是共性难题。

MiniMax这次更新提供了一条具体的产品化路径：用IM做入口降低使用门槛，用工具域拆分提升操作精度，用逐步验证兜住多步任务的可靠性。至于这套方案在真实用户场景中能走多远，还需要更大范围的使用反馈来验证。

MiniMax版龙虾更新：微信飞书远程操控，看屏幕点鼠标更溜了

相关文章

发布评论取消回复

MiniMax版龙虾更新：微信飞书远程操控，看屏幕点鼠标更溜了

相关文章

发布评论 取消回复

发布评论取消回复