🤖
GEO 工具

AI 爬虫抓取验证工具

模拟主流 AI 爬虫的 User-Agent 访问你的网站,全面检测抓取状态、robots.txt 规则和 Meta robots 标签

输入网站 URL

输入你想检测的网站域名或完整 URL(支持带或不带 http/https 前缀)

🤖
正在模拟 AI 爬虫访问…

功能简介

模拟主流 AI Bot 访问站点。下表展示当前工具内置的爬虫信息:

名称 说明 完整 User-Agent Robots.txt disallow 规则
GPTBot OpenAI 模型训练数据抓取。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

User-agent: GPTBot Disallow: /private-folder

ChatGPT-User ChatGPT 用户触发的实时网页访问代理。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

User-agent: ChatGPT-User Disallow: /private-folder

OAI-SearchBot OpenAI 搜索索引抓取(非训练用途)。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

User-agent: OAI-SearchBot Disallow: /private-folder

ClaudeBot Anthropic 模型训练数据抓取。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude/1.0; https://claude.ai/)

User-agent: ClaudeBot Disallow: /private-folder

Claude-User Claude 用户请求触发的实时网页访问代理。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude/1.0; https://claude.ai/)

User-agent: Claude-User Disallow: /private-folder

PerplexityBot Perplexity 答案引擎的索引抓取。 Mozilla/5.0 (compatible; PerplexityBot/1.0; +https://www.perplexity.ai/bot)

User-agent: PerplexityBot Disallow: /private-folder

Perplexity-User Perplexity 用户触发的实时网页访问代理。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity/1.0; +https://www.perplexity.ai)

User-agent: Perplexity-User Disallow: /private-folder

Googlebot Google 搜索主抓取爬虫。 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

User-agent: Googlebot Disallow: /private-folder

Google-Extended Google 对 AI 训练用途的内容控制 token。 Mozilla/5.0 (compatible; Google-Extended)

User-agent: Google-Extended Disallow: /private-folder

Google-CloudVertexBot Google Vertex AI Agent Builder 访问代理。 Google-CloudVertexBot

User-agent: Google-CloudVertexBot Disallow: /private-folder

Google-Agent (Desktop) Google 托管 Agent(如 Project Mariner)桌面端访问代理。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Google-Agent; +https://developers.google.com/crawling/docs/crawlers-fetchers/google-agent) Chrome/W.X.Y.Z Safari/537.36

User-agent: Google-Agent Disallow: /private-folder

Google-Agent (Mobile) Google 托管 Agent(如 Project Mariner)移动端访问代理。 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-Agent; +https://developers.google.com/crawling/docs/crawlers-fetchers/google-agent)

User-agent: Google-Agent Disallow: /private-folder

DeepSeek DeepSeek 相关内容抓取。 Mozilla/5.0 (compatible; DeepSeekBot/1.0; +https://www.deepseek.com)

User-agent: DeepSeek Disallow: /private-folder

QwenBot 通义千问内容抓取。 Mozilla/5.0 (compatible; QwenBot/1.0; +https://tongyi.aliyun.com/bot)

User-agent: QwenBot Disallow: /private-folder

ChatGLM-Spider 智谱 AI 内容抓取。 ChatGLM-Spider

User-agent: ChatGLM-Spider Disallow: /private-folder

不仅如此,还会分析抓取时的状态:

  • HTTP 状态码(200、403、429 等)
  • robots.txt 合规性检查
  • Meta robots 标签分析(包括 noindex 检测)
  • 响应时间和性能指标

操作步骤

01

输入 URL

在输入框中输入要检查的网站 URL(支持带或不带 http/https 前缀)。

02

开始检查

点击"免费检测"按钮,系统将模拟各种 AI Bot 访问该网站。

03

查看结果

查看详细的检查结果,包括访问状态、robots.txt 规则、Meta 标签等。

04

分析优化

分析结果,了解你的网站对 AI Bot 的访问策略是否按预期工作,针对性优化。

常见问答

为什么需要检查 AI 爬虫访问?

现代大型网站通常采用多层安全系统。即使 AI 爬虫在 robots.txt 中被明确允许,它们仍可能在其他级别被阻止,如 CDN 级别阻止、防火墙规则、频率限制系统等。这造成了预期政策与实际访问之间的差距。所以检查 AI 爬虫访问,可以全方位分析 AI 爬虫抓取是否正常。

检查结果中的状态码代表什么?

200 表示可访问,403 表示被阻止,429 表示频率限制,404 表示页面不存在。这些状态码帮助你了解 AI 爬虫访问你网站时的具体遭遇。

robots.txt 和 meta robots 标签有什么区别?

robots.txt 是网站根目录下的文件,用于指导所有爬虫的访问规则;meta robots 标签是 HTML 页面中的标签,用于控制特定页面的索引和爬取行为。两者都很重要,需要配合使用。

如何根据检查结果优化网站?

如果发现 AI 爬虫被意外阻止,可以检查 CDN 设置、防火墙规则、频率限制等;如果希望 AI 爬虫访问,确保 robots.txt 和 meta 标签设置正确;如果希望阻止,可以明确设置相应的阻止规则。

相关工具

查看全部 →
🔍
Query Fan-out
将单一搜索词扩展为多维度子查询,挖掘用户真实搜索意图,覆盖更多流量场景。
使用 →
🕷️
Googlebot 抓取上限检测
检测网页 HTML 大小是否超过 Googlebot 的 2MB 抓取上限,并细分展示各内容类型占比。
使用 →
💡
GEO 品牌问题生成器
输入品牌名,自动生成通用、行业、品牌专属 GEO 问题清单,助力品牌内容覆盖 AI 搜索场景。
使用 →

相关文章

查看全部 →
✉️

遇到问题或有使用建议?

工具仍在持续迭代中,如果你在使用过程中碰到了问题,或者有功能改进的想法,欢迎直接联系我。