🤖
GEO 工具

AI 爬虫抓取验证工具

模拟主流 AI 爬虫的 User-Agent 访问你的网站,全面检测抓取状态、robots.txt 规则和 Meta robots 标签

输入网站 URL

输入你想检测的网站域名或完整 URL(支持带或不带 http/https 前缀)

🤖
正在模拟 AI 爬虫访问…

功能简介

模拟主流的 AI Bot 进行访问,包含以下 AI 爬虫:

  • OpenAI — GPTBot, ChatGPT-User, OAI-SearchBot
  • Anthropic — ClaudeBot, Claude-User
  • Perplexity — PerplexityBot, Perplexity-User
  • Google — Googlebot, Google-Extended, Google-CloudVertexBot
  • DeepSeek — DeepSeek
  • 通义千问 — QwenBot
  • 智谱AI — ChatGLM-Spider

不仅如此,还会分析抓取时的状态:

  • HTTP 状态码(200、403、429 等)
  • robots.txt 合规性检查
  • Meta robots 标签分析(包括 noindex 检测)
  • 响应时间和性能指标

操作步骤

01

输入 URL

在输入框中输入要检查的网站 URL(支持带或不带 http/https 前缀)。

02

开始检查

点击"免费检测"按钮,系统将模拟各种 AI Bot 访问该网站。

03

查看结果

查看详细的检查结果,包括访问状态、robots.txt 规则、Meta 标签等。

04

分析优化

分析结果,了解你的网站对 AI Bot 的访问策略是否按预期工作,针对性优化。

常见问答

为什么需要检查 AI 爬虫访问?

现代大型网站通常采用多层安全系统。即使 AI 爬虫在 robots.txt 中被明确允许,它们仍可能在其他级别被阻止,如 CDN 级别阻止、防火墙规则、频率限制系统等。这造成了预期政策与实际访问之间的差距。所以检查 AI 爬虫访问,可以全方位分析 AI 爬虫抓取是否正常。

检查结果中的状态码代表什么?

200 表示可访问,403 表示被阻止,429 表示频率限制,404 表示页面不存在。这些状态码帮助你了解 AI 爬虫访问你网站时的具体遭遇。

robots.txt 和 meta robots 标签有什么区别?

robots.txt 是网站根目录下的文件,用于指导所有爬虫的访问规则;meta robots 标签是 HTML 页面中的标签,用于控制特定页面的索引和爬取行为。两者都很重要,需要配合使用。

如何根据检查结果优化网站?

如果发现 AI 爬虫被意外阻止,可以检查 CDN 设置、防火墙规则、频率限制等;如果希望 AI 爬虫访问,确保 robots.txt 和 meta 标签设置正确;如果希望阻止,可以明确设置相应的阻止规则。