Googlebot 抓取上限检测

免费检测网页是否超过了 Googlebot 的抓取上限（HTML 为 2MB，PDF 为 64MB）

网站 URL

🕷️

正在抓取页面内容…

功能简介

Google 在 2026-02-06 更新了官方文档，确认 Googlebot 在爬取用于 Google Search 的网页时，只处理每个支持文件类型的前 2MB 解压缩内容。这个限制适用于 HTML、CSS、JavaScript 等文件（PDF 为 64MB），超出部分不会被用于索引。

因此，可用本工具进行网页检测，检测网页大小是否超过了 Googlebot 的抓取上限。

Google 官方文档的原文：

在为 Google 搜索进行抓取时，Googlebot 会抓取受支持的文件类型中的前 2MB 内容，以及 PDF 文件中的前 64MB 内容。从渲染的角度来看，HTML 中引用的每个资源（例如 CSS 和 JavaScript）都是独立抓取的，并且每次资源抓取都受到与其他文件（PDF 文件除外）相同的严格文件大小限制。

常见问答

Google 2MB 的抓取限制是在网页文件压缩前，还是压缩后？

2MB 限制适用于解压缩后的未压缩数据，而非服务器发送的压缩内容（如 gzip 或 Brotli）。

网页大小超出 Googlebot 抓取限制一般有什么情况？

内联大量 JavaScript/CSS 代码，或嵌入长文本/数据块（如 JSON-LD Schema）。
动态生成的大型 HTML（如 SPA 应用渲染后源代码过长）。
包含 data URI 的内嵌图片/资源，直接计入 HTML 大小。
调试工具或未优化的开发代码遗留。

sitemap 的 xml 文件，是否有这个限制？

Sitemap 的 XML 文件不受 Googlebot 网页内容 2MB 抓取限制影响。单个 Sitemap 文件（未压缩）上限为 50MB 或 50,000 个 URL，远高于网页 HTML 的 2MB。

Googlebot 抓取上限检测

输入网站 URL

📂 内容大小细分

功能简介

常见问答