GoForum🌐 V2EX

做了一个 Skill:让 AI 真正操作电脑(看屏幕->找元素->等待->点击/输入)

murongxdb · 2026-02-27 16:02 · 0 次点赞 · 0 条回复

让 AI 真正去“操作电脑”,而不是只给你步骤建议。

这个 Skill 现在已经能跑完整闭环:

截图 -> 解析 UI 元素 -> find/wait 定位目标 -> click/type/hotkey 执行 -> 再截图继续

它提供的能力:

  • UI 截图解析(元素类型、文字、坐标、可点击状态)
  • find:按 type/文本/正则找元素
  • wait:等元素出现/消失再执行
  • click / click-xy / type / key / hotkey / screenshot
  • calibrate:多屏、DPI 、窗口偏移坐标校准

这个 Skill 可以直接安装到 OpenClaw ,让 OpenClaw 的 agent 调用它来控制电脑执行任务。

边界也说清楚:

  • 需要 GUI 会话时,才可真实点击/输入/截图
  • 无 GUI ( headless )下,可做解析、find/wait/calibrate ,但不能真实操作桌面

https://github.com/murongg/ui-element-ops

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: murongxdb
发布: 2026-02-27
点赞: 0
回复: 0