结构化数据分析工具
输入 URL,自动识别页面类型,并给出建议的结构化数据字段,可直接复制 JSON-LD 代码用于网页。也可以在 Google 富媒体测试工具中再次检查。
输入要分析的 URL
支持带或不带 http/https 前缀。本工具以 Googlebot UA 抓取页面并解析 JSON-LD,结果非 Google 官方富媒体测试工具直接输出,但可一键跳转复核。
工具能做什么
对任意可公开访问的 URL 做一次结构化数据与抓取体检,覆盖 SEO + GEO 的核心场景:
- 结构化数据分析和建议:推荐并使用的结构化数据,除了 Google 常见富媒体类型,还包含 schema.org 通用推荐;既符合 Google SEO,也提升 AI 搜索 / GEO 效果。
- 谷歌爬虫抓取验证:本工具模拟 Googlebot UA 抓取,可用于验证 Google 爬虫抓取是否正常。
- 网页渲染情况验证:通过浏览器渲染后再分析,可检查 JS 抓取与网页渲染链路是否正常。
- 代码生成:缺失项自动生成 JSON-LD 模板,自动回填可提取字段,未提取项用
PLEASE_FILL明确标注。
操作步骤
输入 URL
粘贴要分析的页面 URL(首页、产品页、文章页都可)。
自动识别
系统以 Googlebot UA 静态抓取页面并解析 JSON-LD,判断页面类型。
查看建议
对照"已识别 / 建议新增 / 额外"三类结果,重点关注缺失的必填项。
复制代码
展开推荐项的 JSON-LD 模板,一键复制,手动补齐 PLEASE_FILL 的字段。
常见问答
为什么不直接调用 Google 富媒体测试工具,而是自己模拟?
我们最初确实想直接调用 Google 富媒体测试工具,但实测下来 Google 对服务器端自动化访问进行了严格封锁:headless 浏览器、数据中心 IP、TLS 指纹等综合特征会被识别,无论是否登录,都会立即返回 "Something went wrong - Log in and try again",整个流程无法跑通。
所以本工具采用的折中方案是:
- 后端以 Googlebot UA 静态抓取页面 HTML,解析 JSON-LD 与页面特征;
- 结果页同时提供「在 Google 富媒体测试工具中复核」一键按钮,让你在自己浏览器里查看 Google 官方判定(无需登录);
- 两者交叉对照,等于你 30 秒内既拿到自动化分析报告,又能查看 Google 官方原始结果。
"已被 Google 正常抓取"这个状态可信吗?
它表示本工具以 Googlebot UA 抓取该 URL 时收到了 2xx 响应,可以作为"页面对外可访问、CDN/防火墙没有针对 Googlebot 设置硬性拦截"的强信号。但严格意义上,Google 的真实爬虫调度由其内部决定(频率、IP 段、是否需要 JS 渲染等),是否真的被建立索引请以 Search Console 中的"网址检查"为准;想看 Google 当前对这个 URL 的判定,请用上方按钮跳转 Google 富媒体测试工具复核。
除了 Google 建议的结构化数据,还有没有其他 schema.org 可以补充?
有。Google 富媒体只覆盖 schema.org 的一部分类型。本工具的建议里除了 Google 常见富媒体类型,也会保留 schema.org 的通用增强类型(例如 WebPage、Person、ImageObject、CollectionPage 等),用于补充语义和实体关系。这些字段即使不直接触发富媒体,也能提升机器可理解性和 AI 搜索引用质量。
页面类型判断是如何工作的?
先走规则引擎:综合 URL 关键词(/item、/blog 等)、og:type、DOM 特征(价格元素、加购按钮、产品卡片数量、文章主体、作者署名、发布时间、FAQ 问答结构)以及已有 schema 类型。当多条强信号命中时高置信度输出(0.85-0.95);全部规则都不命中或置信度不足时,才调用 AI(Qwen / DeepSeek)做最终分类。
为什么每种页面类型都默认带上 BreadcrumbList?
除首页外,面包屑是 Google 和 AI 搜索最通用、最受益的结构化数据之一,成本极低(只是结构标注),收益高。工具会优先从 DOM 检测面包屑,其次按 URL 路径推导层级,最后基于页面类型 + 标题拼装,保证每个内容页都能输出一个合理的 BreadcrumbList。
JSON-LD 中的 PLEASE_FILL 代表什么?
这是必须由你手动填写的字段。由于工具只能从页面结构里抓到一部分字段(如标题、主图),其他字段(如 SKU、品牌名、价格、作者主页、社媒 sameAs 等)通常需要你根据实际业务信息填入。直接复制使用前请逐一替换,并根据上方注释里的 ❗ / ⚠️ / 🟡 标识判断紧急度。
我的站点抓取返回了 403 / 429 怎么办?
部分站点会对非浏览器请求做限制(CDN 规则、反爬策略)。你可以在 robots.txt 中放行 Googlebot,或切换目标为无验证码 / 非登录态页面;排查方向也可以先用 AI 爬虫抓取验证工具 检查 Googlebot 抓取状态。
结构化数据对 AI 搜索有什么用?
ChatGPT / Perplexity / Claude 在抓取网页时越来越多地依赖结构化数据来理解实体关系和内容权威性。Organization + sameAs(含社媒)帮助 AI 识别品牌实体;Article.author + Person 提升作者权威性;Product.description + Review.reviewBody 完整时更容易被 AI 引用作答;FAQPage 是 AI 问答最喜欢的结构。
遇到问题或有使用建议?
工具仍在持续迭代中,如果你在使用过程中碰到了问题,或者有功能改进的想法,欢迎直接联系我。
📬 alexkh#163.com (请将 # 替换为 @)