最近seo教程自学网在思考一些关于搜索引擎排名的内容,有一些不成熟的想法分享讨论。
搜索引擎抓取页面,提取文本内容,构建倒排索引进行分词后,将搜索关键词进行分词,将名词、字符串等更重要的词提取到分词索引库中进行交集,得到一组具有基本相关性的页面文件,然后进入页面排序部分。
在页面排序部分,有两个部分特别重要,一个是页面在搜索引擎中的权重分数,另一个是重要词性的分词出现在页面上的位置(标题、有效文本的初始区域等)。).我觉得这两个部分的评分基本决定了大致的排名位置,其中页面的权重评分会占比较大的比例(往往是最大的,比其他因素大很多),搜索词的其他词性如下
在不同的搜索引擎趋势中,页面的权重得分明显不同,这都与链接关系密切相关。链接关系可分为相关有效链接(导出链接的网站内容、锚文本、与目标网站高度相关)和高信任链接(来自大型网站、gov、edu等pr值高的网站)。这两个环节可以参考山顶算法和trustrank算法。其中山顶算法的思路很有意思。在该算法的专利版本中,提到了对初始搜索结果页面集再次进行链接关系相关性计算,以便进一步精确地计算在搜索项范围中具有最高权重的页面。
页面权重分数也会涉及到域名的建站时间因素(这里我认为不仅仅是因为链接存在时间因素)。在百度的算法中,主域名的权重对子域名和页面的权重的影响会比google大得多。
这些步骤完成后,你就进入最后一个防作弊模块,去掉那些作弊分数超过一定程度的页面和沙箱里的那些页面,然后得到最终的排序结果。
在考虑这种搜索引擎排名算法时,我们基本上可以确定大多数页面在搜索引擎中没有展示的机会,这是因为权重在搜索引擎算法中具有较高的优先级。
在现有数据中,我认为google以前的pr值是最能反映页面权重的数据,虽然已经停止更新一年了。love stand、chinaz等第三方网站提供的百度权重是根据百度引导的过往流量计算的。虽然能在一定程度上反映域名的权重,但用结果论的方式解释问题并不准确。为了提高页面权重,这些第三方数据不能作为标准。
516位用户关注
305位用户关注