搜索引擎的整体工作原理是什么

发布时间：2021-03-12 09:07:00 热度：70

简介：

对于搜索引擎优化，很多搜索引擎没有问题，但是很少有人能把网站优化到百度首页。经过最近一段时间的观察，发现很多网站排名都在中低端，排名也不理想。那么百度搜索引擎的整体工作原理是什么呢？seo自学网教程告诉你。

搜索引擎的工作原理可以分为抓取、过滤、记录、排序四个部分，我觉得是这样的。

首先，抓住：

搜索引擎爬行蜘蛛可以分为百度蜘蛛、谷歌蜘蛛、360蜘蛛、雅虎蜘蛛、搜狗蜘蛛等等。

既然知道了各大搜索引擎的蜘蛛名称，怎么才能让蜘蛛抓取我们的网站内容？可以分为以下三点：

1.外部链接：外部链接可以分为两种：发布外部链接和友情链接。外部链接也是优化网站的唯一途径。高权重的外部链接可以起到提升网站排名的催化作用。友情链接讲究高质量，也能给网站带来意想不到的排名；

2.提交链接：提交链接主要用于新站刚上线未收录时。可以通过百度站长平台提交网站首页链接；

3.让蜘蛛自己去做：前两点可以起到一定的排名作用，但是光靠前两点是不够的。那么蜘蛛怎么能自己爬上我们的网站内容呢？毫无疑问，网站内容是否优质，网站内部布局是否合理，是否有网站地图，服务器是否稳定等等都有一定的因素。

当我们每天更新网站内容，发布外部链接的时候，怎么知道有没有蜘蛛来我们的网站抓取内容？

首先，你可以使用百度平台的抓取频率(见上图)。只要每天都有压力反馈，就说明蜘蛛去过我们的网站，抓取了一些内容，回收到百度数据库；

其次，通过服务期日志，名为bit log的文件就是网站服务器日志。通过服务周期日志，我们可以看到哪些搜索引擎访问过我们的网站，访问者的ip，以及我们的网站被攻击的事实。我们还可以通过日志文件看到攻击者的ip地址和哪些页面被篡改。

很多网站不收录或者排名不好的原因也在于蜘蛛的爬行因子，主要分为太长路径或者中文路径。

如果路径太长，说明一个网页的网址太长，超过64字节，那么后面的链接蜘蛛就无法抓取。如果是静态链接，网页的层次可能太深，所以搜索引擎会认为页面不重要，可能影响网站收录；如果是动态链接，层次太深不利于优化；

影响蜘蛛爬行的另一个因素是中国路径。如果url是中文路径，主机空间中的文件名也用中文命名。由于许多空间不支持中文命名文件，这可能会导致网页加载缓慢或网址加载混乱，从而导致搜索引擎无法识别它们。

二、过滤：

搜索引擎为什么要过滤抓取的内容？

随着互联网的快速发展和网站数量的增加，会出现大量高度重复的内容和低质量的文章，其中一些还存在大量的死链接。在这一步中，搜索引擎过滤掉这些低质量的网页，为用户提供有价值的内容。

既然搜索引擎要过滤网站内容，那么影响过滤的因素有哪些？

1.识别：搜索引擎捕捉到很多无法识别的网页，如代码、图片、链接等。所以必须对此系列做出相应的解决方案，规范代码，给图片添加alt属性，尽量使用静态(伪静态)链接。不显示url中国道路；

2.页面质量：很多站长喜欢抄袭别人的内容，从而丰富自己的网站。对于这一点，搜索引擎开始收录，但是这些低质量的内容会时不时被删除，所以网站排名不稳定甚至下降。

三.收录：搜索引擎抓取我们的网站内容，那么最后收录了多少网站内容？

站长工具可以用来查询网站列表，但是站长工具只能作为参考。具体可以使用site:命令查看相关字段，如：site:www.chenbaowen.com(有www和没有www的列表不一样)，与网站的首选域相关；还有一种方法是通过百度站长平台工具查询网站列表。

很多网站收录少但是很多网站收录多。原因是什么？

对于新站来说，一开始收录少是正常的。毕竟新站在百度眼里还没有建立起信任和权威，只要定期更新高质量的内容和高质量的外部链接；

对于老站，有很多网站很少收录。一般一个网页超过一个半月还没有收录，要看网页内容质量是否低，字数是否太少等等。

百度蜘蛛将每个网站的内容收集到数据库中，并计算相应关键词的权重，从而达到排名效果。

4.排名：网站的排名是基于搜索引擎的基本优化。百度在百度页面上对计算出来的关键词权重进行排名，也就是说大家经常关心排名的涨跌。

《搜索引擎的整体工作原理是什么.doc》

将本文的Word文档下载，方便收藏和打印

推荐度：

点击下载文档

相关信息