🕷️
SEO 工具

Googlebot 抓取上限检测

免费检测网页是否超过了 Googlebot 的抓取上限(HTML 为 2MB,PDF 为 64MB)

输入网站 URL

输入你想检测的网站域名或完整 URL(支持带或不带 http/https 前缀)

🕷️
正在抓取页面内容…

功能简介

Google 在 2026-02-06 更新了官方文档,确认 Googlebot 在爬取用于 Google Search 的网页时,只处理每个支持文件类型的前 2MB 解压缩内容。这个限制适用于 HTML、CSS、JavaScript 等文件(PDF 为 64MB),超出部分不会被用于索引。

因此,可用本工具进行网页检测,检测网页大小是否超过了 Googlebot 的抓取上限。

Google 官方文档的原文:

在为 Google 搜索进行抓取时,Googlebot 会抓取受支持的文件类型中的前 2MB 内容,以及 PDF 文件中的前 64MB 内容。从渲染的角度来看,HTML 中引用的每个资源(例如 CSS 和 JavaScript)都是独立抓取的,并且每次资源抓取都受到与其他文件(PDF 文件除外)相同的严格文件大小限制。

常见问答

Google 2MB 的抓取限制是在网页文件压缩前,还是压缩后?

2MB 限制适用于解压缩后的未压缩数据,而非服务器发送的压缩内容(如 gzip 或 Brotli)。

网页大小超出 Googlebot 抓取限制一般有什么情况?
  • 内联大量 JavaScript/CSS 代码,或嵌入长文本/数据块(如 JSON-LD Schema)。
  • 动态生成的大型 HTML(如 SPA 应用渲染后源代码过长)。
  • 包含 data URI 的内嵌图片/资源,直接计入 HTML 大小。
  • 调试工具或未优化的开发代码遗留。
sitemap 的 xml 文件,是否有这个限制?

Sitemap 的 XML 文件不受 Googlebot 网页内容 2MB 抓取限制影响。单个 Sitemap 文件(未压缩)上限为 50MB 或 50,000 个 URL,远高于网页 HTML 的 2MB。