简介:
对于搜索引擎优化,很多搜索引擎没有问题,但是很少有人能把网站优化到百度首页。经过最近一段时间的观察,发现很多网站排名都在中低端,排名也不理想。那么百度搜索引擎的整体工作原理是什么呢?seo自学网教程告诉你。
搜索引擎的工作原理可以分为抓取、过滤、记录、排序四个部分,我觉得是这样的。
首先,抓住:
搜索引擎爬行蜘蛛可以分为百度蜘蛛、谷歌蜘蛛、360蜘蛛、雅虎蜘蛛、搜狗蜘蛛等等。
既然知道了各大搜索引擎的蜘蛛名称,怎么才能让蜘蛛抓取我们的网站内容?可以分为以下三点:
1.外部链接:外部链接可以分为两种:发布外部链接和友情链接。外部链接也是优化网站的唯一途径。高权重的外部链接可以起到提升网站排名的催化作用。友情链接讲究高质量,也能给网站带来意想不到的排名;
2.提交链接:提交链接主要用于新站刚上线未收录时。可以通过百度站长平台提交网站首页链接;
3.让蜘蛛自己去做:前两点可以起到一定的排名作用,但是光靠前两点是不够的。那么蜘蛛怎么能自己爬上我们的网站内容呢?毫无疑问,网站内容是否优质,网站内部布局是否合理,是否有网站地图,服务器是否稳定等等都有一定的因素。
当我们每天更新网站内容,发布外部链接的时候,怎么知道有没有蜘蛛来我们的网站抓取内容?
首先,你可以使用百度平台的抓取频率(见上图)。只要每天都有压力反馈,就说明蜘蛛去过我们的网站,抓取了一些内容,回收到百度数据库;
其次,通过服务期日志,名为bit log的文件就是网站服务器日志。通过服务周期日志,我们可以看到哪些搜索引擎访问过我们的网站,访问者的ip,以及我们的网站被攻击的事实。我们还可以通过日志文件看到攻击者的ip地址和哪些页面被篡改。
很多网站不收录或者排名不好的原因也在于蜘蛛的爬行因子,主要分为太长路径或者中文路径。
如果路径太长,说明一个网页的网址太长,超过64字节,那么后面的链接蜘蛛就无法抓取。如果是静态链接,网页的层次可能太深,所以搜索引擎会认为页面不重要,可能影响网站收录;如果是动态链接,层次太深不利于优化;
影响蜘蛛爬行的另一个因素是中国路径。如果url是中文路径,主机空间中的文件名也用中文命名。由于许多空间不支持中文命名文件,这可能会导致网页加载缓慢或网址加载混乱,从而导致搜索引擎无法识别它们。
二、过滤:
搜索引擎为什么要过滤抓取的内容?
随着互联网的快速发展和网站数量的增加,会出现大量高度重复的内容和低质量的文章,其中一些还存在大量的死链接。在这一步中,搜索引擎过滤掉这些低质量的网页,为用户提供有价值的内容。
既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些?
1.识别:搜索引擎捕捉到很多无法识别的网页,如代码、图片、链接等。所以必须对此系列做出相应的解决方案,规范代码,给图片添加alt属性,尽量使用静态(伪静态)链接。不显示url中国道路;
2.页面质量:很多站长喜欢抄袭别人的内容,从而丰富自己的网站。对于这一点,搜索引擎开始收录,但是这些低质量的内容会时不时被删除,所以网站排名不稳定甚至下降。
三.收录:搜索引擎抓取我们的网站内容,那么最后收录了多少网站内容?
站长工具可以用来查询网站列表,但是站长工具只能作为参考。具体可以使用site:命令查看相关字段,如:site:www.chenbaowen.com(有www和没有www的列表不一样),与网站的首选域相关;还有一种方法是通过百度站长平台工具查询网站列表。
很多网站收录少但是很多网站收录多。原因是什么?
对于新站来说,一开始收录少是正常的。毕竟新站在百度眼里还没有建立起信任和权威,只要定期更新高质量的内容和高质量的外部链接;
对于老站,有很多网站很少收录。一般一个网页超过一个半月还没有收录,要看网页内容质量是否低,字数是否太少等等。
百度蜘蛛将每个网站的内容收集到数据库中,并计算相应关键词的权重,从而达到排名效果。
4.排名:网站的排名是基于搜索引擎的基本优化。百度在百度页面上对计算出来的关键词权重进行排名,也就是说大家经常关心排名的涨跌。
329位用户关注
10位用户关注
880位用户关注
846位用户关注
69位用户关注
889位用户关注
601位用户关注
395位用户关注
764位用户关注
584位用户关注