我更想要的智能体是 AI 直接按自然语言操作网页

可以,但要先说清楚一个现实边界:**“纯自然语言直接点网页、完成任务”**目前通常需要两块能力配合:

  1. 一个“浏览器控制层”(Playwright/Selenium/CDP)
  2. 一个“决策层”(LLM:把你的自然语言任务拆成可执行步骤,并循环观察页面)

因此你要找的“智能体”,一般就是这类框架的组合或封装。

下面给你几条最靠谱的选择(按常见度/好用程度):

方案 A:Playwright + LLM 的网页操作智能体(最推荐)

思路:你用自然语言描述目标(例如“登录后进入订单列表,筛选 7 天内的订单并导出”),智能体会:

  • 观察页面(抓取 DOM/可见文字/截图)
  • 规划下一步(点击/输入/滚动/等待)
  • 执行并重复直到完成

常见落地方式:

  • 代码层:Playwright 控制 + 大模型推理(需要你能跑一段 Python/Node)
  • 组件层:用现成的“browser-agent/automation-agent”封装(你只要填任务)

优点:可控、可观测、稳定性比“完全黑盒”高。
缺点:需要一定的工程接入或用开源封装。

方案 B:基于视觉/屏幕截图的“Agent”式自动化(更接近你要的体验)

如果你希望它像真人一样按屏幕上的文字/按钮操作,通常需要:

  • 浏览器截图/可视化信息
  • LLM 或多模态模型理解“现在页面有什么”
  • 然后再用 Playwright 去执行动作

优点:对复杂 UI 也更“通用”。
缺点:成本更高,且需要对失败重试/定位策略做得好。

方案 C:商业/平台型“网页操作 Agent”(省工程,但依赖平台)

有些平台把这套能力封装好了,你只要对话即可让它操作网页。
优点:省事。
缺点:费用、合规、可控性不如自建;遇到特别定制的页面可能仍需要适配。


我建议你先回答我 3 个问题,我就能直接给你“最合适的智能体/落地方案”

  1. 你用的技术栈:Python 还是 Node.js
  2. 你的网页场景:是登录态(需要账号/验证码/短信)还是纯公开页面?
  3. 你希望智能体“完成测试”的形式:
    • A. 只要自动跑流程(端到端冒烟)
    • B. 还要断言(例如“这个按钮应该存在/某文本必须出现”)
    • C. 还要生成测试报告/截图/日志

你回这三个点后,我可以给你一套更具体的推荐:包括用哪个框架、怎么喂自然语言任务、断言怎么做、失败如何重试