与我的网站私密对话(Local RAG)是什么?
有时候你只想快速提问一个具体网站,比如文档站、价格页、帮助中心或政策页。把页面内容一段段复制进聊天工具很麻烦,而为了这种轻量场景去用托管式抓取服务也往往太重。
这个工具把这类流程留在浏览器里。浏览器直接抓取可访问页面,提取可读文本,用 LangChain 做分段,建立本地索引,保存在 IndexedDB 里,再用检索到的页面片段在设备上生成答案,不需要把页面内容存到应用服务器。
网站问答很有用,但托管抓取往往不是你真正想要的
很多网站问题本身并不复杂,比如文档里怎么写额度、价格页有没有退款条款、政策页怎么说数据保留。
手工复制页面既重复又慢,而每次重新打开同一个站点又从头翻一遍也很浪费。
同时,并不是每一次站点问答都值得接入一个远程抓取器或托管索引系统。
当目标是在一台设备上做轻量、私密、可回溯来源的网站问答时,浏览器侧 local website RAG 很合适。
浏览器抓取、本地切块、本地 Voyager 检索、本地回答
工具从一个 URL 开始,抓取根页面,并在需要时跟随少量同源链接,再把可读内容转成可检索 chunk。
这些 chunk、向量和序列化后的 Voyager 索引会保存在 IndexedDB 中,方便同一设备以后继续使用。
当你提问时,浏览器会先从本地向量库中找出最相关的网站 chunk,再把它们送进端侧回答生成步骤。
如何使用与我的网站私密对话(Local RAG)
- 1输入根 URL - 从你想提问的 docs、pricing、help 或 policy 页面开始。
- 2选择抓取范围 - 设置适度的页面数量和同源深度,只扫描真正需要的页面。
- 3建立本地网站索引 - 让浏览器抓取页面、提取文本、生成向量并把 Voyager 索引写入 IndexedDB。
- 4提出具体问题 - 围绕价格、文档、帮助内容、政策语言或产品细节提问。
- 5查看答案与来源 URL - 核对被检索到的页面 chunk 及其原始 URL,确认本地答案依据了哪些页面。
主要功能
- 免费使用
- 无需登录
- 浏览器内处理更安全
- 即时结果
- 简单易用
优势
- 节省时间,提高效率
- 保护隐私,数据不外泄
- 多设备可用
- 无需安装软件
使用场景
文档查询
提问 docs 站点关于配额、功能、部署步骤或配置限制的内容。
价格与政策复核
汇总退款、套餐差异、保留说明或取消条款。
帮助中心问答
直接针对支持文章和 FAQ 提问,而不必手动复制每一页。
私密网站摘要
把可访问页面的本地快照保存在一台设备上,方便之后继续问答。
技巧与常见错误
技巧
- 先用较小抓取范围,把最重要的页面优先索引进去。
- 提问尽量具体,并贴近页面上真实可见的内容。
- 当答案看起来过于压缩或过于自信时,要回看来源 chunk。
- 记住这里依赖的是浏览器直接访问能力,而不是服务器爬虫能力。
常见错误
- 以为它能无视 CORS 或 bot 保护去扫描任何网站。
- 把它当成完整技术 SEO 爬虫,而不是私密本地问答流程。
- 一次扫太多页面,明明只需要少量 docs 或 policy 页面。
- 忽略来源 URL,只看最上面的回答段落。
知识要点
- 浏览器侧网站 RAG 受限于浏览器能否直接抓取页面。如果站点拦截直接访问,本地流程并不能跳过这个限制。
- 向量检索有价值,是因为网站答案常分散在多个 docs、pricing 或 policy 页面里。
- Voyager 提供轻量本地向量库,但检索质量仍取决于页面文本提取与 embedding 质量。
- 这种工具更适合有目标的网站问答与摘要,而不是大规模抓取覆盖或正式审计。
常见问题
它会用代理绕过网站限制吗?
不会。它刻意只在浏览器里运行,所以只能处理浏览器本身被允许直接抓取的页面。
本地会保存什么?
会在 IndexedDB 中保存页面元数据、提取后的 chunk 文本、向量、序列化后的 Voyager 索引和本地聊天历史。
可以跨很多域名一起抓吗?
不可以。这个流程围绕一个具体网站,只会跟随有限数量的同源链接。
能替代托管爬虫或企业级站内搜索吗?
不能。它是一个轻量级、本地化、单设备的网站问答助手。
如果我本来就能打开网站,这个工具还有什么意义?
因为检索能快速聚合多页里相关的 chunk,保存本地索引,并减少重复人工翻页。
相关工具
探索更多 本地 AI 工具
与我的网站私密对话(Local RAG) 属于 本地 AI 工具。探索更多免费在线工具,快速完成相关任务。
查看全部 本地 AI 工具