尝试 AI 操作手机

对购物没有什么耐心，逛商场、试衣服、逛淘宝对我来说都挺折磨。按理说，这种事现在已经很适合交给 AI 处理了。前几天洗完澡，我发现洗衣液和沐浴露快用完了，于是下载了千问。按我的设想，只要给它一句指令，它就能直接帮我挑选并下单，我只需要付款就行。但它的反馈是：没办法直接操作，需要额外授权，也无法跨应用执行。不过，它确实推荐了具体商品，我只要复制产品信息再去下单即可。可这样的体验还是让我有点别扭。各类 app 对 AI 的态度似乎都比较保守，甚至带点防备，而我更希望 AI 能直接操作手机。

于是我搜了一圈，尝试了 auto GLM（6.22MB）这个 app。

配置

理论上，只要是支持图像处理的大模型，都可以接入调用。我试下来，国内的智谱和国外的 GPT-5.5 都能正常运行，Claude 不知道为什么没有成功。

使用

界面很简单，给它一系列权限之后，输入任务就可以执行。

工作原理

在提示词区域说出你要做的事情；
软件不断截取手机界面，并把图片上传给 AI；
AI 对图片进行分析与判断，将下一步操作转化为具体的指令返回，比如点击某个位置、上滑屏幕等。

测试

【注：以下评测纯主观体验，懒得设计严谨的测试了。】

我给了它一个任务：5 块钱给我点一杯奶茶。以下是GPT模型的操作过程：

列出所有安装的应用；
可能发现我安装的外卖软件很少，直接调用了微信小程序；
搜索外卖、奶茶关键词。

进入 1 点点后，跳过一堆广告，随后陷入“需要登录、取消登录、无法点单、返回重试”的死循环。
折腾了半天终于进去，结果发现奶茶太贵，于是关闭页面，转而打开了美团。
有趣的是，美团弹出的验证码并没有难倒它，成功破解。

之后它又进行了一通尝试，最后点了益和堂的“先囤后用”，至于这到底是什么，我也不明白。

优点

使用门槛很低，简单配置一下就可以用；
操作过程透明直观；
智能程度很大程度上取决于所调用的模型，不过处理一些简单、重复的任务已经没什么问题。

不足

它现在的点单策略基本就是“尝试、尝试、再尝试”。对特别具体的任务来说，这种方式未必不行，但我更希望它先搜集更多信息，再做决策，而不是看到一个看起来合适的东西就立刻点进去。这可能受限于预设的提示词，或者和软件本身不支持联网检索有关；
误触比较严重。由于 AI 主要依靠截图来判断该点哪里、该怎么操作，精度偏差比较大，多次误触之后往往只能返回重试。如果除了截图之外，它还能读取更底层的组件信息，操作延迟和精度应该都会大幅提升，甚至有可能帮我玩一些即时类游戏；
缺少人机协同。有时候它会陷入局部困境，只能从头再来。其实人类完全可以在中途帮它解决一部分问题，或者暂停之后补充一段提示词作为指引，这样任务推进起来会顺畅很多；
缺少触发机制。比如可以设置条件：每天 11 点帮我点外卖；断开某个 Wi-Fi（表示刚出门）时自动检查天气，如果正在下雨，就弹出提醒，等等。

展望

如果上面的不足能逐步改进，这类产品的可玩性会高很多。技术问题反而未必是最难的，更麻烦的其实是安全性，毕竟上传截图这种方式本身就可能暴露隐私。另外，它也存在被滥用的风险。这让我想起以前买过的 Autojs，当时我会自己写一些自动化脚本玩，后来这类工具被灰产滥用，最终被强制下架。我还试过让 AI 去下载东西，GPT 会因为版权问题直接罢工，而智谱似乎限制少得多，让它做什么都有可能答应。总之，这样的产品还处在探索阶段，还是期待以后能出现更成熟、更安全的解决方案。

心之回响

博客

尝试 AI 操作手机

配置

使用

工作原理

测试

优点

不足

展望

目录