做SEO一定要对搜索引擎的工作原理有个基础的认识。这里就要按照百度官方提供的提供的一篇《百度搜索引擎工作原理》进行解读。根据这些原理我们应该怎么去做SEO,但是对于刚刚学习SEO的伙伴们来说看一遍这个搜索引擎工作原理很难理解里面深层的意思。今天小编就给大家挖掘一下这篇百度站长学院发布的搜索引擎工作原理这篇文章深层意思!
搜索引擎抓取的基本框架与解读
文中的有向图可以理解为一种可以相互联系的页面,这些页面是“图”,之间的联系为“向”。其中所说的种子网址在目前的互联网中很少有人提及,所谓种子网址是指那些被搜索引擎认为有向图的抓取起点,以种子网址为最开始抓取的网址,不断深入!比如那些高权重的网站有可能就被搜索引擎认定为种子网址。
关于这搜索引擎整个的抓取流程图其中两点小编也在图中标出来了。
第一点,关于dns解析和缓存。
这里给大家解释下。搜索引擎抓取的不是你的网址而是根据你的网址进行解析出来IP然后缓存到自己的服务器中,当下次再抓取你的网站的时候会直接调用IP进行抓取。根据这一点我们可以反思下期中所表达出关于SEO的技巧!
SEO反思:既然蜘蛛是抓取的IP而不是抓取的网址这里可以得出两个结论。
第一个结论是搜索引擎对于一切域名一视同仁。这个官方也给出了明确的说明,同时根据这个蜘蛛抓取的方式也同样验证了百度官方的说明,因为蜘蛛是抓取的ip,如果一个IP上绑定了主域名二级或三级域名,但是IP不会变!但是果真是如此吗?事实上这点并不完全符合官方说的。根据很多做SEO的测试结果表明在普遍情况下一级域名的权重大于二级域名大于三级域名。官方给出的答案是在不受外界的影响下的结论。我们自己要灵活判断。
第二个结论是关于网站空间的选择与替换,在网站选择空间的时候尽量不要选择共享IP的空间,如果你的IP短有别人做的非法网站,并且被百度惩罚了,那么你的网站也会受到相应的牵连。在网站换空间的时候的选择也要确认好IP。在更换空间后如果空间IP不同那么原来空间的内容短期内不要删除,因为IP变了。看上面的抓取流程图也可以看出,搜索引擎为了节省资源会用DNS缓存进行抓取,这里抓取的IP还是老的IP,一但原来的IP上的内容没有了就会造成大量的空页面。这样百度在未更新的情况下会对网站减分。
第二点,关于抓取回网页的SEO反思
很多人认为一个页面在没有被百度收录的情况下里面的链接是无效的,然而看百度抓取的流程图我标注的右边的那一块。因为页面不是蜘蛛处理的,百度会对蜘蛛抓取来的页面进行评判打分,这里才是收录环节。然而只要是蜘蛛抓取回来的页面系统都会对页面里的链接进行提取然后合并更新,最后放在总连接库里。所以页面只要被抓取了里面的链接就会有用。
百度蜘蛛抓取策略解读
关于百度蜘蛛抓取的策略里面说一下图中标红的地方,看起来也是比较有意思的一点就是蜘蛛喜欢晚上行动。所以我们根据蜘蛛的这一特点进行反思。既然蜘蛛有这个习惯,那么我们更新文章的时候就要再蜘蛛来的时候进行更新,这样被抓取到的几率更大一些,想要尽快收录网站就要再晚上对网站进行文章更新。
另外还有百度对状态码的解读,这里我就不说了,大家可以看一下《怎么看懂网站日志?》这篇文章了解一下。关于网站日志,http状态码解读更加的全面。另外其他地方大家直接看百度官方的这篇文章就可以了解。并没有什么难的。
本文来自云之铃投稿,不代表胡巴网立场,如若转载,请注明出处:http://www.hu85.com/816.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxxxx@qq.com 举报,一经查实,本站将立刻删除。