Category Archives: SEO

家庭小趣之帅哥美女

昨天提到三花猫。

我就说 三花猫是猫中的美女帅哥,就如女生中的刘亦菲,男生中的张亚楠[旺柴]

酸奶愣了一下,说,是女生中的张菲菲,男生中的张亚楠?

我和菲菲顿时笑傻了。酸奶一脸茫然。

AI SEO 初步指南[2025年3月版]

背景

25 年 1 月份,Deepseek 上线了 R1 模型,“推理+开源+免费” 3 招齐发,极大的加快了 AI 的发展。

在海外,Google 等搜索引擎在加速融入 AI 功能,同时用户搜索习惯也在发生变化

对 SEOer 来讲,如果 24 年是尝试 AI 的一年,那 25 年一定要将 AI 作为必备的生产力工具,且要根据 AI 做出调整

影响

AI 产品的出现已对搜索和 SEO 产生了明显的影响。

首先是 AI 产品的流量爆发,部分搜索行为转移至 AI 产品

如上图所示,ChatGPT 在 23 年初推出了 GPT4 ,流量快速爆发,几个月就超过了 Bing 搜索。

与此同时,根据 Statcounter 的数据,Google 的全球搜索份额从 2022 年 5 月的 92.48% 降至 2025 年 1 月的 89.78%。而 Bing 从当时的 3.08% ,增至 1 月的 3.94%。

国内趋势会更明显,从百度到 DeepSeek 的转移。

Gartner 机构甚至预测, 2026 年将有 25% 的传统搜索流量将转移至 AI 工具

不过目前 Google 搜索的使用量仍是遥遥领先,每天有 85 亿次搜索。相比之下,ChatGPT 每天有 1400 万次搜索。Google 在抓取、语料上有雄厚的实力和资源,而且在信息的实时性和准确度、行为型搜索的体验上仍有明显优势。而 AI 目前可以跟 Google 掰手腕的只有信息型搜索。

其次,随着 Google 上线 AI Overview 等功能,直接展示内容,且抢占了 SERP 的首屏位置,导致 SEO 点击率降至历史最低,零点击率达到历史最高(PPC 也是类似)。

根据 Botify 和 DemandSphere 的调查,Google AIO 和精选摘要共占据了移动端 75.7% 的首屏空间、桌面设备 67.1% 的首屏空间,且 47.4% 的搜索会出现 AIO。

这就造成了上图的情况,58.5% 的搜索没有任何点击

2 个机会

对 SEO 来讲也出现了 2 个新机会。第一个是 AI 产品和 Google AI Overview 的答案中的流量

跟传统搜索引擎直接展示网页链接不同,AI 产品和 Google AIO 直接展示内容,网站将会得到更多的内容曝光,以及更少的点击。不过如何让自己的内容、品牌和链接出现在这里,仍是非常有价值

其次是 AI 在 SEO 的应用。AI 已经成为非常高效的生产力工具,在 SEO 的内容写作、文案产出、数据分析、图像和视频生成等多个方面都有明显提效。并且随着 AI Agent 的发展,AI 在 SEO 的应用将逐渐增多,且更成熟。

策略应对: 如何出现在 AI 和 Google AIO

Google & ChatGPT 核心流程对比

如图所示,Google 和 ChatGPT 的核心流程是基本一致的:抓取、索引、用户搜索/提问、曝光/点击,在每个环节会有差异

  • 抓取环节Google 有多年的技术和资源沉淀,爬虫抓取量大,能识别 JavaScript。据 AI 爬虫文章中的调查,Googlebot 每月抓取 45亿次,而 OpenAI 仅有 5.69 亿次,且无法识别 JavaScript 内容
  • 在收录环节,Google 主要收录的是网页原生内容,即便有做分词和倒排索引。而 ChatGPT 则会对收录内容进行语料训练。而且依靠强大的抓取,Google 能快速获取即时网页内容,而 ChatGPT 数据一般有滞后性,不过 25 年也可以使用“搜索功能”来分析实时信息了。
  • 在用户搜索/提问环节Google 搜索需要输入具体、精准的关键词,用户一般要多次调整关键词才能找到所需内容。而 ChatGPT 则基本没有使用成本,用日常语言提问就可以获得所需答案,用户使用更简单。
  • 在曝光/排名环节Google 主要展示原生网页的链接,用户需要点击才能访问具体内容;而 ChatGPT 则直接展示内容,且是分析和推理后的内容,只有少量参考链接;Google 也推出 AIO,尝试直接展示内容。

了解了 Google 和 ChatGPT 的核心环节,你就能理解 Google 的 John Mueller 之前所讲SEO 仍然要关注抓取、索引、排名。因为网站仍然需要被 AI 抓取,检索,并进入到排名系统中,只不过这个排名产出的是整合后的内容,不是原始网页链接

AI 抓取优化

网页内容要先保证可被 AI 爬虫抓取。

  • 网页内容要发布在公开的互联网上,确保无需登陆即可访问。权重越高,链接结构越完善的网站越好,AI 爬虫抓取越顺畅
    • 部分 AI 有私域语料库,也可以针对性发布,比如腾讯元宝将微信公众号作为语料库(微信公众号是屏蔽搜索引擎爬虫的)
  • 不要用 robots.txt 屏蔽 AI 爬虫。之前路透社等很多网站为了避免 AI 影响,主动屏蔽了 AI 爬虫的抓取。
  • 重要内容不要放在 JavaScript。因为目前 AI 爬虫还无法识别 JavaScript 内容(未来应该能解决)
  • 确保定期更新,保证 AI 爬虫可定期访问。尤其是 AI 爬虫的抓取量有限时,会有限抓取活跃、持续运营的网站

你可以看到部分内容跟 SEO 是一致的,下面也是一样。

AI 索引和分析的优化

网页内容要确保被 AI 索引,并便于分析识别。

  • AI 专属文件 – llms.txt 文件。llms.txt 是刚提出来的、针对 AI 爬虫专属的、便于 AI 理解网页的文件协议,类似 robots.txt 和 sitemap。llms.txt 使用 markdown 格式简单的列出网页的介绍、主要导航、核心网页等。建议尝试建立下 llms.txt,目前仍未被所有 AI 使用(上图是 https://wordlift.io/llms.txt)。
  • 结构化数据仍然重要,甚至更重要。结构化数据可帮助 AI 更好的理解网页主题和内容,建议参考 schema.org 进行结构化数据的整理,比 Google 有更丰富的字段展示。
  • 独特内容也很关键。类似 SEO,有独特内容才有被收录和分析的价值。

AI 曝光和排名的优化

最后一步就是如何增加曝光和点击的可能性。

  • 重中之重,就是要瞄准话题,解决用户需求,而不是瞄准关键词,仅关注关键词密度和同义词这部分在 AI 时期更加重要,原来针对关键词的方法对 AI 不再有效。
  • 要保证内容的高质量和原创性建议参考 Google 提出的 EEAT,即真实体验、专业度、权威度、信任度。
  • 对于 Google AIO,要尽量确保原网页的排名靠前。Botify 和 DemandSphere 的调查显示,75% 的 Google AIO 链接来自排名前 12 的网页

AI 在 SEO 的应用

AI 在 SEO 中的应用基本上覆盖了每个方面。在内容和多媒体方面:

  • AI 根据关键词生成文章的提纲和正文,如这篇《3种内容策略》中提到的
  • AI 产出文案,总结内容,比如生成 meta description、产出产品的核心卖点
  • AI 生成图片,以及视频切片、数字人应用
  • AI 翻译,比 Google Translate 更流畅

关键词方面:

  • AI 可挖掘关键词,比如“当用户想买充电宝时,在Google里会搜索什么关键词”
  • AI 可分析关键词类型,挖掘背后的用户需求,比如“当用户在Google里搜索[如何挑选西瓜]时,最希望了解什么话题”

分析方面:

  • 利用 AI 分析网页,可从 SEO 和用户体验角度分析,比如“这是一个充电宝的产品详情页,如果你是用户,请从用户体验和 SEO 角度进行分析,并给出具体建议”

最后还有 AI 编程,我最近就用 Cursor 搭建了几个 SEO 小工具,只要输入提示就自动生成代码,半天就生成 2, 3个小工具(之后会分享出来)。

未来预测:AI 会取代搜索?

AI 取代传统搜索,已经成为必然,只是产品的发展不会如此简单、生硬。Google 正在融入 AI 功能,吸收 AI 分析和推理的能力,AI 也在加入搜索功能,解决即时信息和准确度的问题。

所以,我预测之后 Google 和 ChatGPT 会越来越接近。Google 可能是一半 AI 一半搜索的形态,比如首页有对话框和搜索框的切换。

另外如上图,Perplexity.ai 就是我目前能想到的,偏向 AI 搜索的界面。

结尾

随着 AI 的出现,信息获取方式也从搜索和推荐,进化到“AI分析和推理”。以前的搜索和推荐并不会消失,会三者共存。

对 SEO 来说,这也不是生死存亡之际,而是重要的机会转折。希望我们能调整思路,用好 AI 工具,向 AI 新大陆扬帆。

备注

  • 名称或许改成 GEO 更合适,生成式引擎优化 Generative Engine Optimization?
  • 称为 2025 年 3 月版,因为 AI 变化太快,可能明天部分内容就失效。

参考链接

  • 《Google 搜索关于 AI 生成内容的指南》https://developers.google.com/search/blog/2023/02/google-search-and-ai-content?hl=zh-cn 
  • 《Google AIO 影响 – SEO 和 PPC 点击率处于历史最低水平》https://www.seerinteractive.com/insights/ctr-aio
  • 《75% 的 Google AI 概览链接来自前 12 个自然排名》https://searchengineland.com/google-ai-overview-links-top-12-organic-rankings-449216
  • 《微软的 AI SEO 技巧》https://www.searchenginejournal.com/microsoft-ai-seo-tips/532714/

SEO近期资讯2025/2/6:Deepseek开启新时代|AI概览出现在74%问答型搜索|字数统计对SEO无意义

【AI】DeepSeek 横空出世 性能对标 OpenAI o1

2025 年 1 月 20 日,DeepSeek 发布 R1 版,性能比肩 OpenAI o1 正式版

该模型在数学、代码和自然语言推理等任务上表现卓越,性能直接对标 OpenAI 的 o1 正式版,同时以开源形式向全球开发者开放,并使用 MIT 协议开源,支持免费商用,无需申请授权,为 LLM 大模型开源世界又补给了满满一仓库弹药。

另外由于 DeepSeek 训练成本极低,直接颠覆了传统 LLM 高昂的训练方式,英伟达等企业都受到明显影响。

虽然这已算是科技圈家喻户晓的新闻,但这次发布具有划时代的意义,所以这里多说两句

如果说 2022 年 11 月底 ChatGPT 的发布是 AI 时代的第 0 步,那 DeepSeek R1 的发布算是 AI 时代的第 1 步,代表 AI 已降低成本至大众使用(连小红书上都是各种 DeepSeek 使用教程)。类似于计算机的发明,刚开始是体积巨大、价格高昂;后来 PC 发明,才真正进入到大众应用。

参考链接:《DeepSeek-R1 发布,性能对标 OpenAI o1 正式版》https://api-docs.deepseek.com/zh-cn/news/news250120

【AI】Google AI 概览出现在 74% 问答型搜索

国外某团队分析了 7 个行业共计 10000 个关键词的搜索结果情况,研究 Google AI 概览的展示情况,得到几个结论:

  • 在研究的 10000 个关键词中,AI 概览出现了 29.9%,占搜索量的 11.5%
  • 问答型搜索最常触发 AI 概览,出现率是 74%
  • 中等搜索词更常触发 AI 概览(月搜索量在 501 到 2,400 之间),高搜索量关键词触发 AI 概述的可能性较小
  • 导航查询很少产生 AI 概览(例如搜索特定网站)
  • AI 概述更偏向出现在非品牌搜索中:33.3% 的非品牌搜索显示 AI 概述,而只有 19.6% 的品牌搜索显示 AI 概述)
  • AI 概览对 SEO 结果展示的影响明显。在移动端,出现 AI 概述后只能展示 1,2 条 SEO 自然结果;在 PC 端点击 AI 概述的“展示更多”,将使 SEO 结果往下移动 220 像素
  • 排名靠前的 URL 更有可能出现在 AI 概述;精选摘要通常与 AI 概览共存
  • 以专业知识而闻名的网站,尤其是在金融和医疗保健领域,更容易出现在 AI 概述,而 Reddit 和 Quora 等 UGC 网站虽然排名靠前,但在 AI 概览中出现较少

参考链接:https://www.searchenginejournal.com/google-ai-overviews-found-in-74-of-problem-solving-queries/538504/

【Google】移动端搜索结果中的面包屑网址简化

因为移动端通常无法正常展示网址结构,Google 简化了移动端面包屑导航的 URL 展示。简化后只展示网站首页 URL,不展示完整 URL。如下图所示:

经测试,现在已经上线完成

参考文档:《简化移动搜索结果中的可见网址元素》https://developers.google.com/search/blog/2025/01/simplifying-breadcrumbs?hl=zh-cn

【SEO】Google:字数统计本身毫无意义

Google 的 John Mueller 在 Bluesky 上回复了用户的一个问题,提到字数统计本身没有意义

这个用户提问:同一个网页为什么在 3 个 SEO 工具的字数统计完全不同?

John Mueller:这也是为什么字数统计本身毫无意义

我的理解是:专业、丰富的内容,一般都字数较多,在 Google 中有更好表现。所以在数据调查时会发现,字数较多的网页有更好的 SEO 表现。这只是说明字数和排名有相关性,并不存在因果关系。

比如一大段不解决问题的废话,就并不会获得很好的排名。

参考链接:https://bsky.app/profile/johnmu.com/post/3lfumngdf222p

【Google】谷歌更新搜索质量评估指南 多次提到 AI 内容

搜索质量评估指南是 Google 写给排名评分员的文档,我之前提到过多次。文档里有很多 Google 评估排名的标准,比如搜索词背后的用户需求是什么,怎样的网页适合排名靠前,怎样的内容算是满足了用户需求等等。

Google 在 2025 年 1 月份更新了搜索质量评估指南,除了更新了低质量网页的标准和示例外,还加入了 AI 内容的部分,共提及 14 次。

其中有 Google 对 AI 内容滥用的处理态度,也有 AI 生成高质量内容的肯定,整体还是比较中立而务实

部分内容如下:

复制、改写、嵌入或转载内容并不会自动导致页面被评为最低质量。然而,当页面上几乎所有的主要内容(包括文本、图像、音频、视频等)都以复制、改写、嵌入或转载方式呈现,且付出的努力、原创性和对访问者的增值都非常有限时,就应被评为最低质量。同样,仅仅使用生成式 AI 工具并不能决定页面的努力程度或质量评级。生成式 AI 工具既可以用来制作高质量内容,也可能用来制作低质量内容。例如,利用生成式 AI 工具创作高质量原创艺术作品可能需要大量努力;但也可能利用生成式 AI 工具制作出投入很少、原创性和用户增值都极低的最低质量内容。

从中可以看出 Google 对 AI 内容的看法:

  • AI 仅是工具,不好也不坏,主要看用来创造有价值的内容,还是批量生成低质量、对用户无实际帮助的内容
  • 强调原创性和用户价值。Google 的核心观点还是内容是否具有原创性、是否给用户提供了价值;如果利用 AI 生成了对用户有价值的内容,也是认可的;其中的原创度,即是否加入新的观点和内容
  • 对 AI 批量生成低质量内容的警惕。Google 对大规模生成低质量内容是持负面态度,尤其是整站都是以 AI 方式产出内容

感兴趣的可以看下搜索质量评估指南的完整文档,地址是:https://seroundtable.s3.amazonaws.com/searchqualityevaluatorguidelines-01232025.pdf

【AI技巧】利用 Deep Research 生成长篇、高质量的内容

用 AI 生成一篇 1000 字左右的内容,这个现在算是常规操作了,那用 AI 生成一篇专业论文呢?

Gemini 和 ChatGPT 先后上线了 Deep Research 功能,可对提供话题进行深度调查,最后产出一篇内容丰富、信息量巨大、类似专业论文的长篇内容。如下图是 Gemini 的 Deep Research 内容截图:

还有一个是 ChatGPT 的 Deep Research 内容截图:

从内容的丰富度、专业度来看,Deep Research 内容比常规生成的内容要更高质量

不过也仍有一些问题,比如部分信息不准确、生成质量不稳定、限额过低等问题

建议感兴趣的朋友先尝试下,估计迭代后再投入使用会更好。

参考链接:

  • ChatGPT 的 Deep Research 截图取自文章:https://mp.weixin.qq.com/s/WsWzhmiPtjStKgtyt7yv-g
  • Gemini 的 Deep Research 截图取自视频:https://www.youtube.com/watch?v=NrSAUyf_iUc

最后

讲个令人起鸡皮疙瘩的事:现在已经是 2025 年的第二月了。

另外,头图修改自 Irina Blok 的漫画。

2025春节微信红包观察【纯主观】

今年的微信红包🧧使用情况,跟往年是不同的(可能每年都不同)。

首先是红包封面比之前的营销更多,范围也更大。很多品牌在节前就开始在微信里抽奖,或者私域里分发红包封面。我也像之前一样抢了几个品牌的。

另外因为红包封面发放的范围更广,在小红书里也出现了售卖红包封面的情况。比如下图,9.9 元即可得到毛茸茸的蛇年红包封面,朋友圈独一份哦。

这么好的铺垫,本来以为🧧又是很火的一年了。结果红包使用上,真的是惨淡

我的同事群、同学群、朋友群,今年使用得非常少。也就同事群在年夜饭时发了几个红包。

遥想之前最火的时候,同事群里各领导都要发个大红包,同学群里发红包游戏,谁抢得最多继续发,朋友也是发拜年红包。

跟经济情况有关,还是跟红包的新鲜度有关。也可能都有吧。不过好在微信的功能都不会太打扰用户,所以也没有太强推导致的干扰。

还有一个新功能,叫什么送礼,就是直接送个商品。在这个环境下,这个功能也没有意外的惨淡。

最后再说明下,这只是我个人微信里的观察,涉及人数非常少,不具有参考性。

近期SEO资讯:12月网络垃圾更新完成|Google员工讨论“SEO已死”

【热门】Google 员工讨论“ SEO 已死”

在最近一期 “Search Off the Record” 播客中提到了“ SEO 是否已死”这个话题,Gary Illyes 持乐观态度

他认为,“SEO已死”这个话题从 2001 年就开始谈论了,但 SEO 现在还活着。

Google 在 2004 年开始上线各种算法,比如熊猫算法,企鹅算法,以及近几年的核心算法,SEO 已死这个话题一直被讨论,但 2025年 SEO 仍然活着。不过 SEO 在 AI 时代将有重大改变

John Mueller 也提到了 RAG 这个话题。

RAG 全称是检索增强生成,Retrieval-Augmented Generation,是在原来 LLM 生成文本之前增加了一个阶段:从外部特定知识库去检索信息。比如 AI 客服会先使用 RAG 调用公司的政策文档,再来生成对应答案。)

John Mueller 说在 AI RAG 中 SEO 流程仍然发挥作用,SEO 仍然要关注抓取、索引、排名

因为网站仍然需要被 AI 抓取,检索,并进入到排名系统中,只不过这个排名产出的是整合后的内容,不是原始网页链接。

AI 仍然在 3 个方面彻底改变了 SEO :

  1. 原来的自然搜索结果页已经过时(即传统的 10 个蓝色链接)
  2. 用户使用日常对话进行查询,改变了之前相关性算法的运行方式(用户会用对话方式查询,之前很多 SEO 内容都是基于关键词查询模式而创建)
  3. 迭代快速的 AI 排名算法会让网站流量有更多波动( AI 算法迭代快速,信号模糊,会让 SEO 更难稳定)

还有很重要的一点,AI 搜索将更直接展示答案,更少的链接点击,这将导致 SEO 整体流量减少。

💬 不过 AI 时代来临也是不可避免的趋势,作为 SEOer,你准备好了吗,你会有什么调整?欢迎在评论区回复🌹

【算法】12 月网络垃圾更新完成

12月网络垃圾更新(December 2024 spam update)在 12 月 26 日发布完成。以下是本次具体信息:

  • 名称:Google 2024 年 12 月网络垃圾更新
  • 启动时间2024 年 12 月 19 日
  • 完成时间:2024 年 12 月 26 日
  • 目标:针对违反 Google 搜索垃圾内容政策的一些网站。
  • 非目标:此次更新不针对链接垃圾内容,也不针对滥用网站声誉政策及其他部分政策。
  • 惩罚:对违反 Google 垃圾内容政策的某些垃圾技术进行处罚。
  • 覆盖范围:这是一次全球更新,影响所有地区和语言。
  • 影响:Google 未透露有多少查询或搜索受到了此次更新的影响。
  • 恢复:如果您受到了影响,Google 建议您审查其垃圾内容政策,确保您的网站符合相关要求。
  • 更新:Google 表示将定期更新此网络垃圾更新,恢复可能需要数月时间。

【AI】Google 和 Bing 对 Best 类关键词展示 AI 生成结果

Google 和 Bing 都对 “Best 类搜索” 尝试展示 AI 榜单内容(如下图),从多个网页内容中提炼出一份榜单,而不是直接使用某个网页的榜单内容

不同的是,Google 展示在首位,Bing展示在第四个自然链接下方。

这将影响 Best 榜单类内容的流量获取,对 SEO 和 联盟营销 Affiliate marketing 都有直接影响(我上一篇才提到这类内容的转化率较高)。

【AI】Google 本地搜索尝试 AI 排序的餐厅搜索结果

Google 的 AI 排序结果在 5 月的 Google I/O 大会上首次公布,并在夏天开始测试,在 10 月份进行了更广泛的测试,目前已经推出餐厅和酒吧的 AI 排序

如下图所示,在搜索 cocktail bars nyc 时,第一名是 AI 整理的高评分鸡尾酒吧接下来是 2 条自然结果;再往下是地下酒吧、屋顶酒吧的 AI 结果,再往下又是 2 个自然结果。整理就是 AI 排序和自然结果的相互穿插

整体有几个结论:

  • 借助 AI 排序,Google 在改进本地知识图谱
  • 自然结果的曝光减少,比如传统点评网站 Yelp 很少见到,不过应该为 AI 排序提供了底层内容和数据(反而 reddit 很多?!)
  • 零点击搜索的增加。目录和列表类网页的点击将明显减少
  • 目录网站将受到较大影响。AI 将减少信息差,目录网站这种主要依靠信息差提供价值的业务类型,将受到直接冲击

💬 如果你的网站也是以信息差来提供价值,获取收益,那需要重新思考:在 AI 时代你能提供什么价值,是否能被 AI 取代?🤔

参考链接:

* 《Search Off the Record Podcast》https://developers.google.com/search/podcasts/search-off-the-record

* 《Google Speculates If SEO ‘Is On A Dying Path’》 https://www.searchenginejournal.com/google-says-if-seo-is-on-a-dying-path/536543/

* 《Google Search Status Dashboard》https://status.search.google.com/incidents/UUq2WSouY7PhSm8zvtD1

* Bing Best 类结果帖子讨论:https://www.linkedin.com/posts/emarketinguk_llm-activity-7280176892706521089-_ssP/

* 《Quality / Spam Issues in Some Google Knowledge Graph results?》https://www.seolondonsurrey.co.uk/blog/quality-issues-in-some-google-knowledge-graph-results

* 《First Look: AI-Organized Restaurant Results》https://www.nearmedia.co/first-look-ai-organized-restaurant-results-2/

* 头图来自 WAITBUTWHY :过去已逝,未来就在脚下。

2025 Google SEO的3种新的内容营销策略 附案例

众所周知,内容营销是 Google SEO 重要的营销策略之一。

不过前几天遇到一个 SEO 项目,惊奇的发现部分服务商已经把内容营销作为他们的主要增长策略了,即并没有投入很多精力在产品页的优化,而是重点做各种问答类的 Blog 内容,因为这种内容可以带来明显的流量增长。

但实际上单纯内容型流量很难转化,容易造成“有流量,无转化”的情况(C端和B端都是如此),没有给客户带来匹配的转化。

说来惭愧,我之前也做过类似的项目,就是把内容流量做了上去,但难以转化为销售额。

后来我就一直在思考,也研究了很多项目,发现有 3 种新的内容营销策略,既能带来稳定的流量,又可以转化为销售额。这就是这篇内容的由来。

策略1: 榜单/评测型内容

榜单/评测型内容,就是“Best”、“Top 10”等主题的内容,比如 “Best SEOer in china”、“TOP 10 bluetooth earphones”, “Best Door manufacturer in China“。在内容撰写上,一般是在榜单中插入自己的产品或品牌,促成转化。

由于这种搜索一般出现在用户最终决策时,所以转化率远高于普通的问答搜索,甚至能和产品搜索持平。


上图就是几篇榜单类的内容,但我认为他榜单主题的内容太多,“SEO意图”过于明显(给用户看的意图就弱了)。

榜单评测型内容,有几个注意事项:

  • 榜单和评测类内容,内容质量一定要更高,尤其是增加一些实际体验、产品参数、用户评价等内容;因为 Google 的实用内容更新(Helpful Content Update,HCU)和 E-E-A-T 正是针对这类主题,要求内容有实际体验、专业度、权威度和可信度,要求内容为人而创作,而不是单纯 SEO 引流
  • 用好关键词组合,调控转化率,比如 “best + [产品] + manufacturer/suppliers” 可以在 B 端将转化率最大化,“best + [产品] + brand” 是 C 端品牌转化较高的组合,而 “best +[产品] color”可以略微降低转化率
  • 建议多主题多类型组合,不光写 “best manufacturer“, “top 10 brand“,还要组合一些 “what is“, “how to“, “types of“, “the Ultimate guide” 之类的主题,这样才能流量更稳定,也才是给“人”浏览的内容

策略2: 结合 AI 和专业度的内容 SOP

现如今,AI 是个确定性的趋势,Google 也在拥抱 AI,不再禁止 AI 内容,而是以内容价值为准(仍禁止自动生成、低质量内容)。我们也需要结合 AI, 建立高效、高质量、长期稳定的内容产出流程

还有 2 点需要说明:

首先,SEO 产出内容一定要结合 AI,因为 AI 可以大幅提升效率,比如提供话题,快速生成初始内容等;AI 产出的内容,基本上可以顶上一个中等水平的写手。

其次,很多人疏忽的是,一定要加入行业专业度。因为只有加入了专业度,内容才能超越 AI,且有更高的转化。

这里的行业专业度,就是一些行业 know-how 的东西,比如要具体到客户的应用场景,痛点,对应的产品/解决方案,核心优势。有一些具体的行业内容,甚至互联网上都没有出现过。

案例这里,推荐下大飞哥在领航猿视频中分享的内容写作流程

  1. 项目经理挑选 SEO 关键词:一般挑选有搜索量,可转化的关键词
  2. 业务人员提出几个 outline:结合业务实情给出内容提纲、必须包含的内容,比如这个关键词主题下,应用场景有哪些,用户的痛点是什么,对应提供什么产品,我们的核心优势如何表达
  3. 写手利用 AI 生成初始内容,并进行修改和调整:使内容更准确、表达更顺畅、转化更突出
  4. 业务和运营的审核和修改,保证文章通过业务侧、运营侧的标准

不同行业有不同的 AI 写作流程,需要结合自身行业制定合适的 AI 内容产出流程 SOP。不光利用 AI 快速生成内容,还要结合业务专业度,为最终的业务目标服务

策略3: 视频和 Blog 的双重应用

我们都知道视频化是个趋势,很多网站会专门做一个视频频道,以视频详情页的方式去获取 video index来获取视频流量。

不过视频和 Blog 的相互转化,会有更高效的引流效率,有两种方式:

  • 从 Blog 转成视频:按照 Blog 为脚本转换成对应的视频,这样就从一篇文字内容,生成了一段视频,可以获取额外的视频流量
  • 从视频转成 Blog:就是将视频转换成一篇 Blog 内容。我看到 Vevor.com 会将产品短视频、红人视频转换成 Blog 内容,这样内容就增加了真实体验,也有了实际体感,也成了一篇高质量 Blog 内容


上图就是 vevor 某篇 Blog 截图。内容头部有这个短视频,正文中也有放对应视频截图。

以上 3 种就是我认为更高效,能解决转化问题的内容营销策略,我打算在 2025 年应用起来,也建议读者结合自身行业探索出适合自己的内容营销策略。

参考文档

《Google 搜索关于 AI 生成内容的指南》https://developers.google.com/search/blog/2023/02/google-search-and-ai-content?hl=zh-cn

24年的最后一天

刚看 pyq 注意到,今天是 24 年的最后一天了。本来想继续写 SEO 文章,想想还是算了,给自己写点东西吧。

前几天刚看完村上春树的《当我谈跑步时我谈些什么》,他对自己真诚的态度让我很喜欢,也很羡慕。我虽然也想对自己诚实,可现在免不了还是会有一些逃避和否定。

我就翻开了相册,回忆 2024 年发生的事情。其实我是个健忘的人,以前总是为健忘忧郁,比如有人说谁谁比去年高了,今年的冬天很暖和之类,我是一点都记不得这个人之前是什么样,去年冬天有什么感受。

打开相册才知道,哦,原来今年早些时候发生过这些事,原来是今年去的云南旅游,在我脑子里都是很久远的事情了。

当然我现在没那么受这件事影响了,一方面是习惯了,改变不了,另外也安慰自己,要活在当下,不要执着于之前的经历和感受。

年初就是从云南旅游开始,束河古镇、玉龙雪山、泸沽湖、大理。现在回想起来,有一些开心的事,比如束河和泸沽湖的菌菇火锅,玉龙雪山的高原森林,泸沽湖的神山,大理自由的放烟花。不过隐约也能回想到自己的忧郁,就是无法完全放开的接受和享受。

这个是玉龙雪山旁拍的,不愧是彩云之南。

清明节回家,算是我比较喜欢的事了。好长时间没有跟老家亲戚一起相聚,这次正好是家族聚会。可能还是跟小时候一样的羞涩,不过现在脸皮厚了,没什么感觉了。跟大家一起扫墓,祭祖,去了老家河道的小桥,还去了深山里的湖。这就是我小时候印象里的环境了。

不过为什么小时候会一直记着这些,我也不清楚,可能是怀念被亲人环绕的感觉吧。

老家的湖是封闭的,人很少,而且还有一只据说是动物园跑出来的猴子。看到老家的山和水,我感觉这才是北方风格,跟贵州的水墨山水不一样。苍山上有一小段绿树,干河道中有一小片绿水,更显得苍劲深沉,别有一番禅意。

大概是4月重新开始跑步了

刚开始就是在6公里,奥体里正好跑两圈,10公里还是有点费劲。在5月开始就增加跑量,尽量10公里,当月就有100的跑量了。速度和心率就时好时坏,不过我重点调整心态。

我感觉跑步的第一指标还是要跑下去。速度和心率会慢慢优化,不用在意某一次的数据。我一直抱着这样的想法,也是用这个想法去安慰群里兄弟。对了,后来我也带动群里几个兄弟一起跑步。

现在是12月底,我昨天早上还去跑了10公里。如果从数据上看,好像和4月份差不多,哈哈,不过信心是强了很多,最多一次是跑了20公里,算是半马,还有15公里的。

从最近数据和感受来看,我还是会受到温度的影响。在南京温度低,大概1~5度,我可以跑到6:00配速,心率稳定在140+。在佛山是10度,我是 6:30配速+140+心率。

不过怎样,还是继续跑步吧。我也重读了村上春树的《当我谈跑步时我谈些什么》,看到跑者都会有犹豫和拖延,也看到都有跑步的热爱。他还是更厉害,不管是心率,还是对自己的真诚。

顺便说下,装备我也增加了一些,不过还好。跑步算是很便宜的运动了,就2,3双跑鞋,一些跑步衣服,也算是合理的消费。

今年暑假还去河南玩了几次,开封的清明上河园,安阳的殷墟,不过最怀念的还是日本之行。之前是有担心,语言、交通、住宿等问题,结果真到了日本很快就解决了。

我们先去了大阪,玩了大阪的环球影城 USJ;还去了天桥立,又去了京都,神户,都非常好玩,马上就对日本动漫的很多人物和环境有了感受,原来井上雄彦、尾田、庵野秀明、今敏、青山剛昌这些漫画家是在这样的环境下生活,马上多了一点代入感,多少奇妙的感受。

日本对自然环境有更多的敬畏,不像中国对自然有那么多的改造和利用;他们对互联网和科技,也保有一些距离,仍以自己心态和生活为基准。另外不愧是发达国家,对国民有更多关注,食品安全等方面都有严格标准,所以吃东西都很放心,也很原味。

总之是一次不错的体验。所以问到过年去哪里,酸奶就说想再去日本。顺便说下,他在 USJ 的霍格沃茨城堡里被选中挑选魔棒,也是一次非常好玩难忘的经历了。

我整年都抱着很开放的心态,一些分享和合作的机会都会去参加。所以在10月份就接触了一个佛山的项目,是建材和五金领域。

最终我也糊里糊涂的参与了,有看好,也有糊里糊涂的决定吧。总之就这么走着。

这是佛山罗浮宫的照片。

2024年就这么结束了。所谓 2024,也没有什么 2024,只是人们的称谓,每一天都是新的一天,同样又不一样的一天,需要自己亲身体验和感受的每一天,每一刻。

【深度】Google如何在索引中处理JavaScript

Google如何在索引中处理JavaScript

注:Vercel 是 Next.js 的前端云平台;MERJ 是数据驱动的营销公司;本文是他们通过实际测试揭开 Google 渲染的真实情况;本文翻译自 Vercel 的 Blog 文章《How Google handles JavaScript throughout the indexing process》。

了解搜索引擎如何抓取、渲染和索引网页是网站 SEO 的重要基础。然而,随着 Google 等搜索引擎的技术不断变化,尤其是涉及客户端 JavaScript,掌握有效的优化方法变得更加困难。

也有许多过时的观点仍然存在,导致大家对应用 SEO 的最佳实践感到困惑:

  • “Google 无法渲染客户端 JavaScript”
  • “Google 对待 JavaScript 页面有不同的处理方式”
  • “渲染队列和时间对 SEO 的影响显著”
  • “以 JavaScript 为主的网站页面抓取速度较慢”

为了验证这些观点,Vercel 与数据工程咨询公司 MERJ 合作,进行了关于 Google 抓取行为的实验,分析了超过 100,000 次 Googlebot 抓取,涵盖了各种类型的网站,以测试并验证 Googlebot 处理 JavaScript 的能力。

我们先回顾 Google 渲染技术的发展历程,然后探讨我们的研究发现及其对现代 Web 应用程序的实际影响。

Google 渲染功能的演变

多年来,Google 在抓取和索引网页内容的能力上发生了显著变化,了解这一演变对于掌握现代 Web 应用的 SEO 现状至关重要。

2009 年之前:JavaScript 支持有限

在搜索引擎早期,Google 主要索引静态 HTML 内容。由 JavaScript 生成的内容在很大程度上对搜索引擎不可见,因此静态 HTML 被广泛应用于 SEO 。

2009-2015:AJAX 动态渲染方案

Google 推出了 AJAX 动态渲染,允许网站提供动态生成内容的 HTML 快照。这是一种权宜之计,需要开发者为页面创建单独的可抓取版本(针对爬虫使用服务器端渲染 SSR,针对用户采用客户端渲染 CSR)。

2015-2018:早期 JavaScript 渲染

Google 开始使用没有头部的 Chrome 渲染页面,这是一次重要进步,然而这一早期浏览器版本在处理现在的 JavaScript 功能上仍存在局限性

2018年至今:现代渲染能力

如今,Google 使用最新版本的 Chrome 进行渲染,与最新的 Web 技术保持同步。关键功能有:

  • 通用渲染:Google 现在尝试渲染所有 HTML 页面,而不仅仅是某些子集。
  • 最新的浏览器:Googlebot 使用最新稳定版的 Chrome/Chromium,支持现代 JavaScript 功能。
  • 无状态的渲染:每次页面渲染都在一个全新的浏览器会话中进行,不会保留 cookies 或之前渲染的状态(Google 不会点击页面上的内容,如选项卡或 cookie 横幅)
  • 避免内容伪装:Google 禁止为用户和搜索引擎提供不同内容以操纵排名,避免基于 User-Agent 修改内容的代码。所以优化 Web 应用的无状态渲染,并通过有状态方法实现个性化。
  • 资源缓存:Google 通过缓存资源加速网页渲染,这对共享资源的页面和重复渲染的页面非常有用。Google 的网页渲染服务(Web Rendering Service)使用内部算法决定缓存资源是否仍然有效,而不是依赖 HTTP Cache-Control 头部。

今天,Google 的索引过程看起来是这样的:

研究方法

先简单说下研究方法,我们分析了 2024 年 4 月期间从多个网站收集的数据,研究了 Googlebot 如何渲染网站。

通过特殊工具跟踪爬虫行为,我们确认了哪些页面被成功渲染、渲染所需时间,以及不同内容的处理方法。本次研究涉及 37,000 多个页面,为验证相关说法提供了可靠的数据支持。

误解 1:“Google 无法渲染客户端 JavaScript”

这一误解让许多开发者避免使用 JavaScript 框架,或者采用复杂的解决方案来适配 SEO。

测试情况

为验证 Google 渲染 JavaScript 内容的能力,我们重点测试了以下方面:

  • 测试 Googlebot 在抓取时,静态预渲染、服务器端渲染(SSR)、客户端渲染(CSR)的表现
  • 动态内容索引:检查通过 API 异步加载内容的页面,确认 Googlebot 是否能处理并索引这些不在初始 HTML 中的内容
  • 测试 Googlebot 如何处理逐步传输到页面的内容
  • 渲染成功率:对比服务器日志中 Googlebot 的抓取请求数量与成功渲染的页面信号,评估渲染完成的比例。

测试结论

我们发现,在分析超过 10 万次 Googlebot 抓取后(排除错误和不可索引页面),所有 HTML 页面均被成功完整渲染,包括具有复杂 JavaScript 交互的页面

  • 动态加载的内容(通过 API 异步获取)也被成功索引,证明 Googlebot 能处理动态内容。
  • 基于 React 的 Next.js 框架完全兼容 Googlebot
  • 逐步加载的内容同样成功渲染,说明这种技术对 SEO 没有负面影响。
  • Google 会尝试渲染几乎所有抓取的 HTML 页面,而不仅限于少量复杂的 JavaScript 页面。

误解 2: “Google 对待 JavaScript 页面有不同的处理方式”

测试情况

我们通过以下方法测试了 Google 是否会对 JavaScript 密集型页面进行不同处理:

  • CSS @import 测试:创建一个不使用 JavaScript 的测试页面,通过 CSS 文件的嵌套导入检查 Google 是否会在渲染时正确处理 CSS,并与启用 JavaScript 的页面行为进行对比。
  • 状态码与 meta 标签处理:用 Next.js 构建一个测试应用,测试不同 HTTP 状态码(如 200、304、3xx、4xx、5xx)和 noindex 元标签的处理情况,以了解是否对 JavaScript 密集型页面有不同对待。
  • JavaScript 复杂度分析:对比渲染不同 JavaScript 复杂度页面(简单 JS、中等交互、高度动态渲染页面)的行为,并测量初次抓取到完成渲染的时间差,评估复杂 JavaScript 是否会延长渲染时间。

测试结论

  • Google 能成功渲染有或没有 JavaScript 的页面
  • 对于状态码为 200 的 HTML 页面,无论是否包含 JS,都会被渲染;304 状态页面使用原始 200 状态内容渲染,而 3xx、4xx、5xx 错误页面不会被渲染。
  • 初始 HTML 中包含 noindex 标签的页面不会被渲染,即使通过 JavaScript 移除该标签也无法影响 SEO。
  • JS 复杂度对渲染成功率没有显著影响,且在 nextjs.org 的规模下,JS 复杂度与渲染延迟无明显关联。但在更大规模的网站上,更复杂的 JS 可能会影响抓取效率。

误解 3 :“渲染队列和时间对 SEO 的影响显著”

一些人认为 JavaScript 密集型页面由于渲染队列的存在会导致索引延迟。为验证这一点,我们研究了 Google 渲染页面的时间延迟和模式。

测试情况

  • 渲染延迟:分析 Google 抓取页面到完成渲染的时间差(基于 37,000 多条数据)。
  • URL 类型:比较带查询参数和不同页面类型的渲染时间。
  • 频率模式:研究 Google 多次渲染同一页面的频率和规律。

测试结论

  • 25% 的页面在初始抓取后的 4 秒内就渲染完毕;渲染时间中位数为 10 秒;75% 页面在 26 秒内完成。所以并不存在渲染队列而造成严重的索引延迟
  • 虽然有少数页面渲染延迟较长(99% 的页面最多延迟约 18 小时),但这只是少数情况,并不普遍。

另外发现 URL 参数和更新频率也会影响渲染速度:

  • 带有参数的 URL 会有更长的渲染延迟
  • 经常更新的页面,渲染时间更短;更新较少的页面,会被 Google减慢渲染频率
URL 类型第50%位第75%位第90%位
所有URL10秒26秒约3小时
无参数的URL10秒22秒约2.5小时
有参数的URL13秒31秒约8.5小时

误解 4: “以 JavaScript 为主的网站页面抓取速度较慢”

有人认为 JavaScript 为主的网站会让 Google 更慢发现页面,我们的研究对此提出了新见解。

测试情况

  • 对比不同页面类型(服务器渲染 SSR 、静态生成、客户端渲染 CSR)的链接发现速度。
  • 测试 Google 是否能从未直接显示的 JavaScript 数据中发现链接。
  • 分析链接被 Google 发现和抓取的时间差异。

测试结论

  • Google 能成功发现和抓取所有渲染后的页面中的链接,不管渲染方式如何。
  • Google 可以从 JavaScript 数据(如 JSON 数据)中找到链接,但需要明确的 URL 格式。
  • 链接来源(HTML 标签或 JavaScript 数据)不会影响 Google 的抓取优先级
  • 客户端渲染页面需要先被完全渲染后才会被 Google 发现,因此服务器渲染页面有一定时间优势。
  • 提供更新的 sitemap.xml 能大大缩短不同渲染方式之间的页面发现时间差异

总体影响和建议

本次研究揭示了 Google 对大量使用 JavaScript 网站的处理方式,打破了一些常见误解,并提供了以下关键结论和建议:

主要结论

  • 兼容性:Google 能有效渲染和索引 JavaScript 内容,包括复杂的单页应用和动态加载的内容。
  • 渲染一致性:Google 对待 JavaScript 页面和静态 HTML 页面没有本质区别,都会完整渲染。
  • 渲染延迟:大多数页面在几分钟内完成渲染,而非数天或数周。
  • 页面发现:JavaScript 网站不会因其技术架构在页面发现上受到不利影响
  • 内容时机:页面中的某些元素(如 noindex 标签)的加载时间点很重要,Google可能忽略客户端的动态更改。
  • 链接评估:Google 在完整渲染页面后再评估链接的价值,而不仅仅是发现它们。
  • 渲染优先级:Google 优先渲染内容新鲜或更新频繁的页面,而不是严格按照提交顺序。
  • 渲染和抓取效率:渲染 JavaScript 页面需要更多资源,对于大型网站,优化性能和减少不必要的 JavaScript 能提升抓取效率,让更多页面被索引。

建议

  1. 放心使用 JavaScript:可以使用 JS 框架来提升用户体验,但要注重性能,并按照 Google 的最佳实践来处理懒加载内容。
  2. 错误处理:在 React 应用中添加错误处理机制,防止某个组件出错导致整个页面渲染失败。
  3. 关键 SEO 内容:重要的 SEO 标签和内容应通过服务器渲染或静态生成,在初始 HTML 中直接提供。
  4. 资源管理:确保关键资源(如 API、JS 和 CSS 文件)未被 robots.txt 阻止
  5. 内容更新:需要快速更新的内容应反映在服务器渲染的 HTML 中,而不是仅依赖客户端 JavaScript。
  6. 内部链接和结构:设计清晰的内部链接结构,重要的导航链接用标准 HTML 标签(如 <a href="...">),而非 JS 导航。
  7. 站点地图:定期更新 sitemap.xml,对于更新频繁的站点使用 <lastmod> 标签提示 Google 最新内容。
  8. 监控:使用 Google Search Console 检查页面抓取和渲染情况,确保没有因渲染策略引发的问题。

不同渲染策略的优缺点

功能静态站点生成 (SSG)增量静态生成 (ISR)服务器端渲染 (SSR)客户端渲染 (CSR)
抓取效率:Google 能多快、多高效地访问、渲染并获取网页内容。优秀优秀很好较差
页面发现:Google 查找新 URL 进行抓取的能力。优秀优秀优秀一般
渲染完整性:Google 加载和处理网页的准确性和完整性,是否无错误。稳定稳定稳定可能失败
渲染时间:Google 完成网页渲染和处理所需的时间长短。优秀优秀优秀较差
链接结构评估:Google 如何评估网页中的链接以理解网站架构和页面的重要性。渲染后评估渲染后评估渲染后评估渲染失败可能丢失链接
内容索引:Google 将网站内容存储和组织到搜索索引中的能力。稳定稳定稳定渲染失败可能无法索引
  • 保持 sitemap.xml 更新可以大大缩短或消除不同渲染方式之间的页面发现时间差异
  • Google 的渲染通常不会失败。如果发生失败,往往是因为资源被 robots.txt 阻止或特定的特殊情况导致的

尽管渲染方式可能存在细微差异,但无论使用哪种策略,Google 都会快速发现和索引你的网站。与其过度担心 Google 的渲染过程,不如专注于提升网页性能,为用户提供更好的体验。

页面速度仍是一个排名因素,Google 会通过核心网页指标 (Core Web Vitals) 评估网站性能。同时,加载速度更快也能提升用户体验,每节省 100 毫秒的加载时间,网站转化率可能提升 8%。更少的用户跳出页面,也会让 Google 认为页面更相关。性能影响叠加,毫秒决定成败

参考链接

  • 《将动态渲染作为临时解决方法》https://developers.google.com/search/docs/crawling-indexing/javascript/dynamic-rendering?hl=zh-cn

【深度】AI爬虫的崛起

本文是 MERJ 和 Vercel 研究实际数据总结了目前主流 AI 爬虫的几个特征。

注:Vercel 是 Next.js 的前端云平台;MERJ 是数据驱动的营销公司;本文翻译自 Vercel 的 Blog 文章《The rise of the AI crawler》。

整体上,AI 爬虫已经成为网络上的重要存在。在过去一个月中,OpenAI 的 GPTBot 在 Vercel 网络上产生了 5.69 亿次抓取,而 Anthropic 的 Claude 紧随其后,达到了 3.7 亿次

而这 2 个加起来的请求量只占同期 Googlebot 45 亿次抓取的 20%。

规模和分布

Vercel 网络上的 AI 爬虫流量非常大。在过去的一个月:

  • Googlebot:Gemini 和 Googlebot 的抓取次数达到 45 亿次
  • GPTBot (ChatGPT):5.69 亿次抓取
  • Claude:3.7 亿次抓取
  • AppleBot:3.14 亿次抓取
  • PerplexityBot:2440 万次抓取

GPTBot、Claude、AppleBot 和 PerplexityBot 合计抓取了近 13 亿次,约占 Googlebot 总抓取量的 28%+。

虽然 AI 爬虫尚未达到 Googlebot 的规模,但他们已占据网络爬虫流量的很大部分

爬虫位置分布

这些 AI 爬虫都在美国数据中心

  • ChatGPT:得梅因(爱荷华州)、菲尼克斯(亚利桑那州)
  • Claude:哥伦布(俄亥俄州)

相比之下,传统搜索引擎通常会将抓取分散到多个地区。例如,Googlebot 在美国七个不同的地区运营,包括达尔斯(俄勒冈州)、康瑟尔布拉夫斯(爱荷华州)和蒙克斯科纳(南卡罗来纳州)。

JavaScript 渲染能力

AI 爬虫在 JavaScript 渲染能力方面存在明显差异。为了验证我们的发现,我们分析了使用不同技术栈的 Next.js 应用程序和传统网页应用。
调查结果一致表明,目前主要的 AI 爬虫都不渲染 JavaScript。这包括:

  • OpenAI (OAI-SearchBot, ChatGPT-User, GPTBot)
  • Anthropic (ClaudeBot)
  • Meta (Meta-ExternalAgent)
  • 字节跳动 ByteDance (Bytespider)
  • Perplexity (PerplexityBot)

研究结果还显示:

  • Google 的 Gemini 利用 Googlebot 的能力,因此能够完整渲染 JavaScript
  • AppleBot 通过基于浏览器的爬虫渲染 JavaScript,类似于 Googlebot。它能处理 JavaScript、CSS、Ajax 请求以及完整页面渲染所需的其他资源
  • Common Crawl (CCBot),这个经常被用作大语言模型(LLMs)训练数据集的爬虫,不渲染页面

数据表明,虽然 ChatGPT 和 Claude 的爬虫确实会获取 JavaScript 文件(ChatGPT:11.50%,Claude:23.84% 的请求),但它们并不执行这些文件。它们无法读取客户端渲染的内容

但请注意,包含在初始 HTML 响应中的内容(如 JSON 数据或延迟的 React Server Components)可能仍会被索引,因为 AI 模型可以解析非HTML内容。

相比之下,Gemini 使用 Google 的基础设施,使其具有与我们在 Googlebot 分析中记录的相同渲染能力,能够完整处理最新的网页应用

内容类型优先级

AI 爬虫在抓取 nextjs.org 时表现出明显的内容类型偏好。最明显的特征有:

  • ChatGPT 优先考虑 HTML 内容(57.70% 的抓取量)
  • Claude 高度关注图片内容(35.17% 的总抓取量)
  • 尽管不执行 JavaScript 文件,但两种爬虫都花费大量时间在这些文件上(ChatGPT:11.50%,Claude:23.84%)

作为对比,Googlebot 的抓取量(包括 Gemini 和搜索)分布更加均匀:

  • 31.00% HTML 内容
  • 29.34% JSON 数据
  • 20.77% 纯文本
  • 15.25% JavaScript

这些模式表明 AI 爬虫会收集多样化的内容类型——HTML、图片,甚至将 JavaScript 文件作为文本收集——这可能是为了训练他们的模型以适应各种形式的网页内容。

虽然像 Google 这样的传统搜索引擎已经针对搜索索引优化了他们的抓取模式,但较新的 AI 公司可能仍在完善他们的内容优先级策略

爬虫效率问题

我们的数据显示 AI 爬虫行为存在明显的低效现象:

  • ChatGPT 有 34.82% 的抓取遇到 404 页面
  • Claude 表现相似,有 34.16% 的抓取遇到 404 错误
  • ChatGPT 另外还有 14.36% 的抓取在处理重定向

对 404 错误的分析显示,除去 robots.txt 之外,这些爬虫经常尝试获取 /static/ 文件夹中的过期资源。这表明 AI 爬虫需要改进 URL 选择和处理策略以避免不必要的抓取

这些高比例的 404 错误和重定向与 Googlebot 形成鲜明对比 – Googlebot 仅有 8.22% 的请求遇到 404 错误,1.49% 的请求遇到重定向。这表明 Google 在优化其爬虫以抓取真实资源方面确实有更多经验。

流量相关性分析

我们对流量模式的分析揭示了爬虫行为和网站流量之间存在关联性。基于来自 nextjs.org 的数据:

  • 较高自然流量的页面会收到更频繁的爬虫访问
  • AI爬虫在 URL 选择上存在不可预测的情况
  • 较高的 404 错误率表明 AI 爬虫可能需要改进其 URL 选择和验证流程

虽然传统搜索引擎已经开发出复杂的优先级算法,但 AI 爬虫似乎仍在不断发展其网络内容发现方法。

建议

对于希望被抓取的网站站长

  • 优先对关键内容进行服务器端渲染。 ChatGPT 和 Claude 不执行 JavaScript,因此任何重要内容都应该在服务器端渲染。这包括主要内容(文章、产品信息、文档)、元信息(标题、描述、分类)和导航结构。SSR、ISR 和 SSG 能确保您的内容对所有爬虫都是可访问的。
  • 客户端渲染仍适用于增强功能。 您可以放心地对非核心的动态元素使用客户端渲染,比如访问计数器、交互式UI增强功能、在线聊天小部件和社交媒体信息流。
  • 高效的URL管理比以往任何时候都更重要。 AI 爬虫的高 404 错误率突显了维护适当重定向、保持站点地图更新以及在整个网站使用一致的 URL 模式的重要性。

对于不希望被抓取的网站所有者

  • 使用 robots.txt 来控制爬虫访问。 robots.txt 文件对所有爬虫都有效。通过指定AI爬虫的用户代理(user agent)或产品标识(product token)来设置具体规则,以限制对敏感或非必要内容的访问。要找到需要禁止的用户代理,您需要查看每个公司自己的文档(例如,Applebot和OpenAI的爬虫)。
  • 使用 Vercel 的WAF来阻止AI爬虫。 我们的”阻止AI机器人防火墙规则”让您只需一键就能阻止AI爬虫。这个规则会自动配置您的防火墙以拒绝它们的访问。

对于 AI 用户

  • JavaScript 渲染的内容可能缺失。 由于 ChatGPT 和 Claude 不执行 JavaScript,它们对动态网络应用的响应可能不完整或过时。
  • 注意信息来源。 较高的404错误率(>34%)意味着当 AI 工具引用特定网页时,这些 URL 很可能是错误的或无法访问的。对于重要信息,始终直接验证来源而不是依赖AI提供的链接。
  • 预期更新的不一致性。 虽然 Gemini 利用 Google 的基础设施进行抓取,但其他 AI 助手显示出较不可预测的模式。有些可能引用较旧的缓存数据。

有趣的是,即使在向Claude或ChatGPT请求最新的Next.js文档数据时,我们通常在 nextjs.org 的服务器日志中也看不到即时的获取请求。这表明AI模型可能依赖于缓存数据或训练数据,即使它们声称已获取最新信息。

总结

我们的分析显示,AI 爬虫已经迅速成为网络上的重要存在,在 Vercel 的网络上每月有近 10 亿次请求。

然而,在渲染能力、内容优先级和效率方面,它们的行为与传统搜索引擎有明显不同。遵循已建立的网络开发最佳实践——特别是在内容可访问性方面——仍然至关重要。

备注

  • 原文:《The rise of the AI crawler》https://vercel.com/blog/the-rise-of-the-ai-crawler
  • 作者:Giacomo Zecchini 、Alice Alexandra Moore、Malte Ubl、Ryan Siddle

【算法更新】 Google发布12月网络垃圾更新 & 核心更新已完成

如题,Google 昨晚发布了 12 月的网络垃圾更新(the December 2024 spam update)。该更新适用于全球和所有语言,可能需要长达 1 周的时间才能完成发布。

关于网络垃圾更新,Google 是这么描述:

虽然用于检测搜索结果网络垃圾的 Google 自动化系统一直在运行,但我们偶尔也会对其运作方式做出重大改进。我们将此类改进称为“网络垃圾更新”,并会在我们的 Google 搜索排名更新列表中分享相关改进。

网络垃圾更新发布后,如果发现网站的表现有变化,请查看我们的网络垃圾政策,确保网站符合相关要求。违反我们政策的网站可能会在搜索结果中排名较低,或者完全不会显示在搜索结果中。 做出更改可能会有助于改进网站的表现,前提是我们的自动化系统在几个月内发现网站符合我们的网络垃圾政策的相关要求。

对于垃圾链接更新(专门处理垃圾链接的更新),进行更改可能不会带来改进。这是因为,当我们的系统消除垃圾链接可能带来的作用后,这些链接之前可能给您的网站带来的排名优势将会丢失。这些链接可能带来的任何排名优势无法恢复。

所以,垃圾链接更新主要是针对一些违反Google指南的行为,比如关键词堆砌、滥用过期域名、垃圾链接等。

我比较关注的是,是否会对 AI 批量产生的内容产生影响。

12月核心更新发布完成

12月核心更新在 12 日发布,在 18 日发布完成。从数据来看,此次更新的影响很明显,也有朋友反馈网站流量下降了 5~10%。

以下是几个 SEO 工具监控的排名波动情况:

你的网站近期有受到算法影响吗,请留言分享沟通~

备注

以下是几个参考链接:

* Google 在 X 的宣布信息:https://x.com/googlesearchc/status/1869790407934259685

* 《适用于 Google 网页搜索的垃圾内容政策》https://developers.google.com/search/docs/essentials/spam-policies?hl=zh-cn