对SEO优化的深层认知SEOER的研究对象就是搜索引擎,因此深入了解搜索引擎工作原理很有必要,网上也有很多介绍这方面的文章,但能称得上详细、形象、深入地进行剖析的少之又少。当然,笔者的博文可能也完全达不到所谓的详细、形象、深入三面俱到,但笔者会尽可能详尽、深入地阐述各个原理,以便对这些原理能有更深层次的认知。
一、抓取:其实在抓取前面还有一个过程没有描述在内,那就是爬行,也就是搜索引擎程序发现新网址的过程,只是这个过程大多伴随着抓取,除非你的这个URL上的内容没有什么价值(垃圾内容、重复内容、文字过少内容等)而被搜索引擎抓取程序直接跳过。搜索引擎爬行程序以数据表中已存在或新提交的链接顺藤摸瓜式地进行爬行以不断发现新的URL,抓取程序在分析并确定该URL的页面内容有价值后,便将其整个页面抓取下来放入到庞大的信息数据表中。新抓取的内容在进入信息数据表时,并不是一股脑地堆积在那,而是按照信息数据库中表的字段(如:网页URL、title、描述、正文内容、抓取时间、导出链接等)分门别类地将信息存储起来,以便满足后期的数据索引操作。