酷猫写作 > 软文写作 > 软文营销
栏目

网页去重原理是什么?应该怎么做

发布时间:2021-04-03 10:03:55 热度:1

在互联网如此发达的今天,同样的信息会在多个网站上发布,同样的新闻会被大多数媒体网站报道。此外,小站站长和seo人员不知疲倦地在网上收集信息,导致网上大量重复信息。然而,当用户搜索某个关键词时,搜索引擎肯定不希望呈现给用户的搜索结果是相同的内容。抓住这些重复的网页,在一定程度上是对搜索引擎自身资源的浪费。因此,删除内容重复的网站已经成为搜索引擎面临的一个主要问题。

在一般的搜索引擎架构中,网页去重通常存在于蜘蛛爬行部分。在整个搜索引擎架构中实施“去重”步骤越早,可以节省后续处理系统的更多资源。搜索引擎一般会对抓取到的重复页面进行分类,比如判断一个网站是否包含大量重复页面,或者该网站是否完全收集了其他网站的内容等。以便决定将来是捕获该站点还是直接阻止捕获。

重复数据消除的工作通常在分词之后和索引之前(或分词之前)执行。搜索引擎会从已经从页面中分离出来的关键词中提取一些有代表性的关键词,然后计算这些关键词的“指纹”。每个网页都会有这样的特征指纹。当新捕获的网页的关键词指纹与被索引的网页的关键词指纹一致时,新网页可能被搜索引擎视为重复内容并放弃索引。

在实际工作中,搜索引擎不仅使用分词分离出的有意义的关键词,还使用连续切割来提取关键词和计算指纹。通过连续切割提取关键词,并进行指纹计算。连切就是单个字后移的切,也就是单个字后移的切。比如“百度开始打击买卖链接”会被切割成“百度开放”、“度开始”、“开始玩”、“开始打击”、“打买”、“打买卖”、“交易链”、“卖链接”。然后从这些词中提取一些关键词进行指纹计算,参与内容是否重复的比较。这只是搜索引擎识别重复网页的基本算法,处理重复网页的算法还有很多。

因此,互联网上最流行的伪原创工具不能欺骗搜索引擎,或者他们不能阅读内容。因此,理论上,使用普通的伪原创工具无法得到搜索引擎的正常收录和排名。但百度并没有直接抛弃所有重复页面而不做索引,而是根据重复页面所在网站的权重放宽索引标准,使得一些作弊者有机会利用网站的高权重,从其他网站收集大量内容来获取搜索流量。然而,自2012年6月以来,百度搜索多次升级算法,多次打击收集重复信息和垃圾页面。因此,搜索引擎优化不应该从伪原创,的角度出发,而应该从对用户有用的角度出发。后者的内容虽然不一定原创,但如果网站权重没有大问题,是会健康发展的。关于原创性的问题,这本书将在第12章详细讨论。

另外,不仅是搜索引擎需要“去重网页”,网站本身也是如此。比如分类信息、b2b平台等ugc网站,如果不加限制,用户发布的信息必然会有大量的重复,不仅在seo中表现不好,还会降低用户在网站中的体验。比如基于“聚合”的索引页、主题页或目录页,是seo人员在设计流量产品时常见的,所以“聚合”一定要有核心词,如果不过滤,海量核心词展开的页面可能会出现大量重复,导致产品效果不佳,甚至被搜索引擎缩小。

“去重”算法的一般原理如上,有兴趣的朋友可以了解一下i-match、瓦片、simhash、余弦去重的具体算法。搜索引擎在做“网页去重”之前,首先要对网页进行分析,内容周围的“噪音”会对去重结果产生影响。做这部分工作的时候,只能操作内容部分,相对简单很多,可以有效辅助生产高质量的“seo产品”。作为seo人员,只需要了解实现原理,产品中的具体应用需要技术人员去实现。此外,还涉及效率、资源需求等问题,根据实际情况,“去重”工作也可以在多个环节进行(比如核心词的分词)。seo人员只要对一些原理有一点点了解就给技术人员建议几个方向就好(技术人员不是万能的,也有不熟悉不好的领域,具体时刻也需要别人提供思路)。如果seo人员能在这些方面与技术人员有深入的交流,技术人员也会对seo特别尊重,至少不会认为“seo人员只会有换标题、换链接、换文字等‘无聊’的需求”。

总结:在感谢痞子瑞的好书的同时,尼子在seo思维中发现了新的知识、复制和指纹原理。希望兄弟姐妹们能看完这本书,今天和大家分享一些。在未来的日子里,我会继续和大家分享好的知识点。

《网页去重原理是什么?应该怎么做.doc》
将本文的Word文档下载,方便收藏和打印
推荐度:
点击下载文档

相关信息

酷猫分类查询入口

一键复制