可以,但要先说清楚一个现实边界:**“纯自然语言直接点网页、完成任务”**目前通常需要两块能力配合:
- 一个“浏览器控制层”(Playwright/Selenium/CDP)
- 一个“决策层”(LLM:把你的自然语言任务拆成可执行步骤,并循环观察页面)
因此你要找的“智能体”,一般就是这类框架的组合或封装。
下面给你几条最靠谱的选择(按常见度/好用程度):
方案 A:Playwright + LLM 的网页操作智能体(最推荐)
思路:你用自然语言描述目标(例如“登录后进入订单列表,筛选 7 天内的订单并导出”),智能体会:
- 观察页面(抓取 DOM/可见文字/截图)
- 规划下一步(点击/输入/滚动/等待)
- 执行并重复直到完成
常见落地方式:
- 代码层:Playwright 控制 + 大模型推理(需要你能跑一段 Python/Node)
- 组件层:用现成的“browser-agent/automation-agent”封装(你只要填任务)
优点:可控、可观测、稳定性比“完全黑盒”高。
缺点:需要一定的工程接入或用开源封装。
方案 B:基于视觉/屏幕截图的“Agent”式自动化(更接近你要的体验)
如果你希望它像真人一样按屏幕上的文字/按钮操作,通常需要:
- 浏览器截图/可视化信息
- LLM 或多模态模型理解“现在页面有什么”
- 然后再用 Playwright 去执行动作
优点:对复杂 UI 也更“通用”。
缺点:成本更高,且需要对失败重试/定位策略做得好。
方案 C:商业/平台型“网页操作 Agent”(省工程,但依赖平台)
有些平台把这套能力封装好了,你只要对话即可让它操作网页。
优点:省事。
缺点:费用、合规、可控性不如自建;遇到特别定制的页面可能仍需要适配。
我建议你先回答我 3 个问题,我就能直接给你“最合适的智能体/落地方案”
- 你用的技术栈:Python 还是 Node.js?
- 你的网页场景:是登录态(需要账号/验证码/短信)还是纯公开页面?
- 你希望智能体“完成测试”的形式:
- A. 只要自动跑流程(端到端冒烟)
- B. 还要断言(例如“这个按钮应该存在/某文本必须出现”)
- C. 还要生成测试报告/截图/日志
你回这三个点后,我可以给你一套更具体的推荐:包括用哪个框架、怎么喂自然语言任务、断言怎么做、失败如何重试。