1、每个搜索引擎的总体抓取量(以及趋势)
在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用DOS命令或者Linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析 时候,一定要清楚的知道蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。
2、记录搜索引擎蜘蛛的不重复抓取量
上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你才会知道问题的严重性。
3、每个目录、每个搜索引擎的抓取量
上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofollow标签等。