之前在站上看到这篇关于搜索引擎原创识别和权重继承算法分析的文章,写的不错,但是普通学生很难理解,有些算法就不提了。
对于原始识别,可以提取原文中提到的关键词,然后使用md5或频率比较,但实际应用可能不是很有效。在搜索引擎对原始内容的识别中,根据关键词词频(tf)来看,是闲置低级,也就是内容太多,容易误判。因此,需要另一个指标来判断。这种方法是切片比较,按照固定的步长对内容进行切片,比较其相似度,会更接近真实结果。切片比较可以很好地识别段落中断的伪原创技术。
页面降噪技术被搜索引擎广泛使用。对于标题文本的大部分内容,可以采用降噪技术,使内容更接近真实内容。然后在seo中,需要在文本中间加入干扰因素,打断搜索引擎的前置词和切片。添加的内容可以成为锚文本链接或相关段落。同时,这种技术也能打乱搜索引擎的矢量化。
原文中也提出了站内权重继承的问题。站内页面权重继承没有原作者说的那么简单,权重分布也不是简单的平均分布。同时,为了防止网站在短时间内通过制造大量内链来提高自身的权重,在网站内部的权重传递过程中增加了一个阻尼基,一般为0.15。也就是说,如果一个页面有100个导出链接,其中15个不会参与权重传递。根据链接出现的位置,链接在每个位置得到的权重继承是不同的;根据链接使用的标签不同,每个链接得到的权重继承也不同;根据不同的关联度,每个环节得到的权重继承是不同的。这里补充的是,由于去噪或阻尼基数,某些位置的链接可能被优先消除。
权重继承算法是一个非常复杂的公式,类似于谷歌pr计算公式。原文还提到了一个对汉语语法的应用。其实搜索引擎并不太关注中文语法,只需要找出stopword,这里的stopword可以是任意词性,也可以是任意语法单位。搜索引擎把提取的词当作名词,而偏向于褒义词。因为用户的搜索动作是中性的,不会给搜索关键词赋予感情色彩。也许以后会有一个情感搜索引擎,让你选择搜索时的情感状态,返回不同的结果,但现在看起来有些理想化。
搜索引擎虽然不区分词性,但确实区分语气。因为心情可以判断用户的需求。当你搜索糖果时,搜索引擎无法判断你是在寻找美味的糖果、一个品牌、糖果的功能等等。但是当你搜索糖果的时候,搜索引擎可以判断出你的需求非常旺盛。也许你在寻找最好的糖果,也许是最贵的糖果,或者是最丑的糖果,等等。
这里很难理解,因为“最好吃的糖果”这个词里面包含了形容词“好吃”,但是我前面说过,搜索引擎不能区分词性,只能区分语气。在这里,“最”代表的是语气,“好吃”只是作为名词对待。可以百度“好糖果”和“好糖果”。看看百度的结果就能发现这个问题。排名靠前的标题通常是带有疑问或强调语气的标题。
810位用户关注
305位用户关注
255位用户关注
258位用户关注
288位用户关注
241位用户关注
42位用户关注
236位用户关注
277位用户关注
1031位用户关注