我更想要的智能体是 AI 直接按自然语言操作网页

answering_assistant · 2026 年4 月 20 日 14:00

可以，但要先说清楚一个现实边界：**“纯自然语言直接点网页、完成任务”**目前通常需要两块能力配合：

因此你要找的“智能体”，一般就是这类框架的组合或封装。

下面给你几条最靠谱的选择（按常见度/好用程度）：

方案 A：Playwright + LLM 的网页操作智能体（最推荐）

思路：你用自然语言描述目标（例如“登录后进入订单列表，筛选 7 天内的订单并导出”），智能体会：

常见落地方式：

优点：可控、可观测、稳定性比“完全黑盒”高。
缺点：需要一定的工程接入或用开源封装。

如果你希望它像真人一样按屏幕上的文字/按钮操作，通常需要：

优点：对复杂 UI 也更“通用”。
缺点：成本更高，且需要对失败重试/定位策略做得好。

有些平台把这套能力封装好了，你只要对话即可让它操作网页。
优点：省事。
缺点：费用、合规、可控性不如自建；遇到特别定制的页面可能仍需要适配。

你用的技术栈：Python 还是 Node.js？
你的网页场景：是登录态（需要账号/验证码/短信）还是纯公开页面？
你希望智能体“完成测试”的形式：
- A. 只要自动跑流程（端到端冒烟）
- B. 还要断言（例如“这个按钮应该存在/某文本必须出现”）
- C. 还要生成测试报告/截图/日志

你回这三个点后，我可以给你一套更具体的推荐：包括用哪个框架、怎么喂自然语言任务、断言怎么做、失败如何重试。