谷歌自然搜索参数整理

注明：本文甚无趣，除有专门需求，可跳开或直接忽略。

昨天跟BI要了个谷歌自然搜索流量的栏目细分数据，但早上拿到后发现每天比平常统计的多了10+W。细分一下才发现里面还有很多参数需要过滤和处理。下面是过滤的步骤：

图片暂缺

基础级

先是从referer里提取出含有google的log数据（获得元数据）
过滤广告数据，有/ad?, doubleclick（除掉15%）
过滤图片数据，有tmb=isch, imgres（除掉17%）
过滤翻译，邮箱和地图，有translate,mail.google,maps.google（除掉3%）
过滤aol，有.aol.（不到1%）

进阶级

通过以上环节，基本上已经完成了90%。如果想做到极致，可以继续细分。（注意，以下是细分，并不是过滤。是否过滤看自己情况。）

url?。谷歌的跳转URL，302跳转到目标网页。
aclk?。谷歌的跳转URL，302跳转到目标网页。 请注意，付费搜索也在使用前两个参数，通过这个参数获得自然搜索时要先过滤掉广告数据。
search?。常规的搜索参数，不过数量不太多。
google首页，没有参数，可以用正则过滤。这部分可能是因为用户使用了https搜索，出于隐私保护没有具体地址。
m?,/#,webhp?,xhtml?。这些是谷歌的跳转URL，会跳转到谷歌的搜索结果页。但数量都不多。

还有一些不知道啥东西的URL：

google.com/search。很奇怪的referer，没有搜索词，只有这个。
/blank.html。也很奇怪，是个空白页面，但能着陆到网站上。
cse?。也是个空页面。
/uds/afs?，空白页面，数量极多。

基本就这么多了，今天才忽然发现原来之前就不知道真实的自然搜索流量，真是可悲。这就是一天的成果，正好可以加在最近的BI日志分析系统中。

一个示例

以下是我昨天数据整理的一些过程，时间范围机密就不说了。

元数据102562

一轮过滤。3个搜索流量，规则： url? 跳转参数，302至目标网页 aclk? 跳转参数，302至目标网页 search? 常规搜索参数剩余45725

二轮过滤。referer是google首页，规则： /$ 安全搜索，referer为google首页剩余28485

三轮过滤。广告流量，规则： /cs/ 着陆页为广告剩余27799

四轮过滤。莫名奇妙的2个referer，规则： /blank.html 空白页面，不知道来由 /uds/afs? 空白页面，不知道来由剩余26191

五轮过滤。莫名其妙的一对规则： xhtml? 37 跳转至GG搜索结果页 custom? 24 GG自定义搜索或由GG驱动的搜索 webhp? 174 跳转至GG搜索结果页 m? 460 跳转至GG搜索结果页 /# 179 跳转至GG搜索结果页 cse? 109 空白页面，不知道来由 .aol. 67 AOL搜索 /image? 23 图片搜索剩余25166

六轮过滤。2个莫名其妙的参数： /search$ 24431 可能是安全搜索 google.com$ 680 安全搜索，referer为google首页剩余55

剩下的都是零碎的规则，没有进一步整理。

注：欢迎各位朋友一起交流讨论。

图注：Google在2013年7月3日在大陆，台湾，香港显示的动态doodle，为纪念《本草纲目》作者李时珍诞辰 495 周年

谷歌自然搜索参数整理

谷歌自然搜索参数整理

基础级

进阶级

一个示例

相关文章

谷歌针对移动设备进行优化的网站建议

百度承认对域名后缀区别对待

国内外各大搜索引擎与搜索参数收集

评论

写下你的评论