SEO

【重磅】Google搜索内部文档遭泄露 一万多个排名特征曝光

5 月 5 日,Google 搜索的某个内容 API 文档被意外曝光。

public

5 月 5 日,Google 搜索的某个内容 API 文档被意外曝光。这份文档已被前 Google 员工确认,而且更新日期显示是今年 3 月份,还是相当新的。

public

从这份泄漏的文档中能看到,Google 排名系统包含 2,596 个模块,以及 14,014 个排名因素。这次可以说是Google 有史以来最大严重的泄密事故了。

我汇总了 iPullRank 创始人 Mike King 和 Rand Fishkin 的第一手资料,发现很多排名算法的细节。跟 Google 之前公布的一对照,真的是“假假真真、真真假假”。

假假真真

“我们没有域名权重的数值”

Google 一直说,并不存在域名权重这种数值(类似 Semrush 和 Ahrefs 的 AS 和 DA 值),但实际上文档中确实有 siteAuthority 这个参数,完全就是域名权重/站点权重

public

“我们不使用点击次数用于排名”

Google 一直称“并不使用点击次数用于排名”,但实际从这份文档来看并不是这样。

从上次反垄断调查时,Google 就暴露出有 NavBoost 排名系统的存在,NavBoost 是专门依靠点击数据驱动来调整排名的系统。

这次的内部文档有更详细的点击参数,比如:

  • badClicksgoodClicks :主要是用户在搜索结果中的点击行为,如果满足需求,不再点击其他结果,算是加分,否则是减分
  • lastLongestClickslastGoodClicks:主要是衡量点击是否会随着时间衰减,有时效的考虑
  • unsquashedClicksunsquashedImpressionsunsquashedLastLongestClicks:主要是数据做了规范,保证不会有极端数据影响整体数值

public

另外,其中并没有点击率、停留时间的参数

各种资料都表明,依靠点击数据的 NavBoost 系统是 Google 排名信号中最重要的因素之一。所以可以看出,Google 是将点击次数和点击后行为作为排名算法的一部分

“沙盒并不存在”

John Muller 之前说过,并不存在沙盒。

但内部文档中是有 hostAge 这个参数,主要是 “对新鲜垃圾网页/网站进行沙盒处理”。

“不使用 Chrome 的数据”

这个是一直宣称的,但实际上是有 ChromeInTotal 这个参数,表示网站在 Chrome 的整体浏览量(以此了解网站的访问规模)。

public

甚至网站子链接都可能是利用 Chrome 数据。

public

真真假假

作者是一个明显特征

关于 EEAT,Google 一直没有公布明显的优化方法,也说作者模块并没有正向帮助。

但实际上文档中有 author 作者这个参数,而且也会判断是否真的是网页的作者。

算法降级

文档中提到了几种方式的算法降级,包含:

  • 锚点不匹配 - 当链接锚文本与它所链接的目标网站不匹配时,该链接在计算中会被降级
  • SERP 降级 - 从 SERP 的点击情况来了解用户的满意程度,不满意时被降级
  • 导航降级 - 网站的导航链接的体验较差
  • 精确匹配域名降级 - 搜索词跟域名精准匹配,不会有排名提升作用(在 2012 年的 Google Exact-Match Domain (EMD) Update上线 )
  • 产品评价降级 - 跟产品评价算法 Product Review 有关
  • 位置降级 - 跟位置有关联的搜索时,无位置的网页会降级
  • 成人内容降级
  • 其他链接降级

外链似乎仍很重要

外链跟网页的索引层级有关

Google 索引分为几个层级,其中最重要的、定期更新和访问的内容存储在闪存中。不太重要的内容存储在固态硬盘上,而不定期更新的内容存储在标准硬盘上。所以外链的索引层级越高,价值就越高

public

垃圾链接的识别

Google 有用 phraseAnchorSpamDays识别垃圾链接,会识别垃圾链接的频率、数量、起始时间,很容易把这部分数据忽略。

public

Google 会参考近 20 次修改的历史版本

Google 会保留网页的历史版本,就像是 Wayback Machine 做的那样。

但在参考网页内容时,主要参考其近 20 次修改的历史版本

新网页都会获取首页的初始PR

网页新上线会获取初始PR,就是首页的PR,直到网页通过用户数据和网页数据获取自己的 PR。

public

首页信任度

Google 根据对首页的信任程度来决定如何评估外链的价值

public

所以,SEO 应该关注链接的质量和相关性,而不是数量。

链接和内容的字体大小仍有帮助

早期 SEO 都会要求加粗文本和下划线,现在看来仍有帮助,且不光是对内容,还有锚文本。

public

其他重要信息

还有一些零碎的算法信息,包含:

  • 网页文档会被截断。在 Mustang 系统中,考量的字符数量是有限的,网页内容过长会被截断,所以重要内容要往前放
  • 短篇内容的原创度可获得评分OriginalContentScore表明较短内容是靠原创度来获取得分
  • Title 跟关键词的匹配仍很重要titlematchScore参数仍在衡量标题与关键词的匹配程度
  • Title 和 Description 没有字符长度的限制
  • 日期很重要。Google 通过 3 个参数来判断网页的时间:bylineDate是网页中显示的日期,syntacticDate是 URL 或标题中提取的日期,semanticDate是从内容中分析出的日期
  • 域名注册信息有使用。Google有存储域名的过期时间和创建时间,用于新域名的判断,比如最近的“过期域名滥用”肯定会用到这个字段
  • 视频网站会被特别对待。如果超过 50% 的页面包含视频,会被判断为视频网站,收到不同对待。
  • YMYL 会有特别评分机制。这个符合之前公布的信息

Google 反应

此次泄露事件仍在发酵,预计很快就会被一些互联网媒体报道。Google 仍未对此次泄漏事件做出任何回应

我的看法

  • 我完全理解 Google 员工宣讲时的立场,他们主要是引导站长良性发展,本身就不会讲算法细节
  • 看了之后对算法细节更了解,不过 SEO 该做什么还是做什么
  • 在长期 SEO 策略上,我还是选择更高的内容质量、更好的用户体验的方向,短期内会尝试一些技巧,比如标题会嵌入关键词,更长一些,文章增加作者模块等

如果你有好的想法,也欢迎留下评论,一起讨论更多优化方法~❤️️

参考链接

  • 《Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked》https://ipullrank.com/google-algo-leak
  • 《An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them》https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/