吸引蜘蛛
通过上面的介绍可以知道,spider 不可能将所有的页面都收录,因此 SEO 就是要通过各种手段,吸引 spider 爬行收录自己网站更多的页面。既然不能所有页面都收录,那么 spider 肯定是尽量抓取重要页面。那么 spider 是如何判断哪些页面重要?有几个影响因素:
- 网站和页面权重。质量高,资格老的网站权重高。
- 页面更新度。更新频率高的网站权重高。
- 导入的链接。无论是外部链接还是内部链接,要被 spider 抓取,就必须要有导入链接进入页面。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。
- 与首页的点击距离。一般来说,网站最高的权重就是首页,大部分外链都是指向首页,spider 访问最频繁的也是首页。所以离首页越近的页面,权重也相对更高,被 spider 爬行的机会也越大。
地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。通过地址库会有几个来源:
- 人工录入的种子网站
- spider 爬取页面后,解析出网址,与地址库对比。如果不存在,则存入
- 站长通过搜索引擎网页提交网址(一般个人博客或网站都采用这种方式)