对购物没有什么耐心,逛商场、试衣服、逛淘宝对我来说都挺折磨。 按理说,这种事现在已经很适合交给 AI 处理了。前几天洗完澡,我发现洗衣液和沐浴露快用完了,于是下载了千问。按我的设想,只要给它一句指令,它就能直接帮我挑选并下单,我只需要付款就行。 但它的反馈是:没办法直接操作,需要额外授权,也无法跨应用执行。不过,它确实推荐了具体商品,我只要复制产品信息再去下单即可。 可这样的体验还是让我有点别扭。各类 app 对 AI 的态度似乎都比较保守,甚至带点防备,而我更希望 AI 能直接操作手机。
于是我搜了一圈,尝试了 auto GLM(6.22MB)这个 app。
配置
理论上,只要是支持图像处理的大模型,都可以接入调用。我试下来,国内的智谱和国外的 GPT-5.5 都能正常运行,Claude 不知道为什么没有成功。

使用
界面很简单,给它一系列权限之后,输入任务就可以执行。

工作原理
- 在提示词区域说出你要做的事情;
- 软件不断截取手机界面,并把图片上传给 AI;
- AI 对图片进行分析与判断,将下一步操作转化为具体的指令返回,比如点击某个位置、上滑屏幕等。
测试
【注:以下评测纯主观体验,懒得设计严谨的测试了。】
我给了它一个任务:5 块钱给我点一杯奶茶。以下是GPT模型的操作过程:
- 列出所有安装的应用;
- 可能发现我安装的外卖软件很少,直接调用了微信小程序;
- 搜索外卖、奶茶关键词。

- 进入 1 点点后,跳过一堆广告,随后陷入“需要登录、取消登录、无法点单、返回重试”的死循环。
- 折腾了半天终于进去,结果发现奶茶太贵,于是关闭页面,转而打开了美团。
- 有趣的是,美团弹出的验证码并没有难倒它,成功破解。

- 之后它又进行了一通尝试,最后点了益和堂的“先囤后用”,至于这到底是什么,我也不明白。

优点
- 使用门槛很低,简单配置一下就可以用;
- 操作过程透明直观;
- 智能程度很大程度上取决于所调用的模型,不过处理一些简单、重复的任务已经没什么问题。
不足
- 它现在的点单策略基本就是“尝试、尝试、再尝试”。对特别具体的任务来说,这种方式未必不行,但我更希望它先搜集更多信息,再做决策,而不是看到一个看起来合适的东西就立刻点进去。这可能受限于预设的提示词,或者和软件本身不支持联网检索有关;
- 误触比较严重。由于 AI 主要依靠截图来判断该点哪里、该怎么操作,精度偏差比较大,多次误触之后往往只能返回重试。如果除了截图之外,它还能读取更底层的组件信息,操作延迟和精度应该都会大幅提升,甚至有可能帮我玩一些即时类游戏;
- 缺少人机协同。有时候它会陷入局部困境,只能从头再来。其实人类完全可以在中途帮它解决一部分问题,或者暂停之后补充一段提示词作为指引,这样任务推进起来会顺畅很多;
- 缺少触发机制。比如可以设置条件:每天 11 点帮我点外卖;断开某个 Wi-Fi(表示刚出门)时自动检查天气,如果正在下雨,就弹出提醒,等等。
展望
如果上面的不足能逐步改进,这类产品的可玩性会高很多。技术问题反而未必是最难的,更麻烦的其实是安全性,毕竟上传截图这种方式本身就可能暴露隐私。 另外,它也存在被滥用的风险。这让我想起以前买过的 Autojs,当时我会自己写一些自动化脚本玩,后来这类工具被灰产滥用,最终被强制下架。我还试过让 AI 去下载东西,GPT 会因为版权问题直接罢工,而智谱似乎限制少得多,让它做什么都有可能答应。总之,这样的产品还处在探索阶段,还是期待以后能出现更成熟、更安全的解决方案。