惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

阮一峰的网络日志
阮一峰的网络日志
D
Darknet – Hacking Tools, Hacker News & Cyber Security
S
Schneier on Security
The Last Watchdog
The Last Watchdog
Cyberwarzone
Cyberwarzone
S
Securelist
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cyber Attacks, Cyber Crime and Cyber Security
L
Lohrmann on Cybersecurity
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 司徒正美
The Cloudflare Blog
V
V2EX
博客园_首页
博客园 - 聂微东
Vercel News
Vercel News
人人都是产品经理
人人都是产品经理
G
GRAHAM CLULEY
T
Tenable Blog
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
L
LINUX DO - 最新话题
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
SecWiki News
SecWiki News
博客园 - 三生石上(FineUI控件)
S
Secure Thoughts
N
News | PayPal Newsroom
T
The Blog of Author Tim Ferriss
The GitHub Blog
The GitHub Blog
T
Troy Hunt's Blog
博客园 - 【当耐特】
Forbes - Security
Forbes - Security
H
Hacker News: Front Page
A
About on SuperTechFans
B
Blog RSS Feed
Engineering at Meta
Engineering at Meta
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
罗磊的独立博客
D
DataBreaches.Net
P
Privacy & Cybersecurity Law Blog
Schneier on Security
Schneier on Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Google DeepMind News
Google DeepMind News
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Jina AI
Jina AI
D
Docker
P
Proofpoint News Feed

游魂博客

没有公网 IPv4 也能远程访问 NAS:使用阿里云 ESA + IPv6 搭建内网服务入口 - 游魂博客-分享技术,资源共享 阿里云 ESA 免费 CDN 教程:全球加速 + DDoS 防护,手把手续期至 2051 年 - 游魂博客-分享技术,资源共享 GPT Image 2实测,时代真的变了! - 游魂博客-分享技术,资源共享 百度网盘免费领取500G空间容量,速上车! - 游魂博客-分享技术,资源共享
让AI住进网页里:Page Agent 纯前端自动化初探 - 游魂博客-分享技术,资源共享
游魂 · 2026-04-03 · via 游魂博客

最近发现阿里云开源的 Page Agent 挺有意思,跟大家分享一下我的使用感受。

PageAgent简介

PageAgent 是一款由阿里巴巴开源的、基于 JavaScript 的 GUI 智能体(GUI Agent)。它最大的亮点在于无需依赖浏览器插件、Python 环境或无头浏览器,仅通过在页面中注入 JavaScript 即可运行。

它允许用户通过自然语言控制网页界面,将复杂的操作流程转化为简单的指令,非常适合用于 SaaS 产品的 AI 助手集成或个人网页自动化任务。

开源仓库:https://github.com/alibaba/page-agent

image-20260331142620208

核心特性概览

特性维度 描述
技术架构 纯前端 JavaScript 实现,基于 LLM(大语言模型)驱动。
集成方式 支持 CDN 直接引入、NPM 包安装,也支持独立的 Chrome 插件。
核心原理 基于文本的 DOM 操作,无需截图或多模态 LLM,直接解析页面元素。
适用场景 智能表单填写、SaaS 产品 Copilot、网页无障碍访问等。

两种接入与使用方式

网站所有者:嵌入式 AI 助手

如果你是网站开发者,希望为你的用户提供“AI 操控”能力,只需在网页源码中引入一行 JS 代码即可。

实现原理:

快速接入代码:

<script src="https://registry.npmmirror.com/page-agent/1.6.3/files/dist/iife/page-agent.demo.js"></script>

效果: 网站上会出现一个聊天框,用户可以通过文字沟通来自动化处理一些简单任务,无需后端重写。

体验地址: https://cooking.youhun.wang/

网站接入

执行任务

个人用户:浏览器插件扩展

如果你不是网站所有者,但希望在日常浏览中使用自动化功能(如在非自家的网站上执行复杂任务),可以使用其提供的 Chrome 扩展程序。

使用方法:

  1. 安装官方提供的 Chrome 扩展:https://alibaba.github.io/page-agent/docs/features/chrome-extension/。
  2. 扩展会注入 Agent 脚本到当前页面。
  3. 用户可以通过扩展面板发送指令,控制当前标签页。

适用场景: 适合完成跨页面任务或对第三方网站进行稍微复杂的自动化操作。

浏览器插件扩展

实际体验:有亮点也有槽点

在实际体验中,PageAgent 的表现符合预期,但也存在一定的局限性:

优点:

  • 轻量级: 无需复杂的环境配置,纯 JS 运行,加载速度快。
  • 低成本: 相比于 PuppeteerSelenium,它直接在页面上下文中运行,资源消耗更低。
  • 易上手: 开发者集成非常简单,几行代码即可拥有 AI Copilot 能力。

局限性(体验反馈):

  • DOM 依赖性强: 它的识别逻辑完全依赖于 DOM 模型。如果网页元素缺乏语义化标签(如没有 aria-label 或文本内容),Agent 往往会“视而不见”,导致无法点击或输入。
  • 简单任务为主: 目前更适合处理逻辑简单的线性任务(如填写表单、点击导航)。对于逻辑极其复杂或动态加载极快的 SPA 应用,可能会出现识别滞后或找不到元素的情况。
  • 体验一般: 在一些非标准布局的网站上,交互体验可能不如原生插件流畅。

总结与建议

Page Agent 是一个挺有想法的项目,把 AI Agent 从“外部操控浏览器”变成了“内部嵌入网页”,架构轻量、接入成本低。但目前在实际使用中,DOM 识别的准确率还有提升空间,复杂任务容易翻车。

不过话说回来,这种纯前端实现 GUI Agent 的思路确实值得学习。如果你对 AI 自动化或者浏览器扩展开发感兴趣,去 GitHub 上看看源码应该能有不少收获。