您当前的位置: 首页 > 汽车

如何避免重复性收录

2018-11-05 09:26:05

如何避免重复性收录

在互联中,信息的重复是在所难免的。然而,搜索引擎怎么样才能识别重复的信息呢?怎样判断那些页的信息是原创,那些是复制的?那些重复的信 息室有价值的,那些又是可以舍弃的?下面大敏给各位分享下自学后得出的答案。

一个站里,重复信息主要包括转载内容及镜像内容这两种,搜索引擎在对页面进行分析时,必须具备识别重复信息的能力。因为,存储大量的重复的信息, 不仅给服务器增加负担,而且还会给用户体验造成影响。但这不意味着所有重复信息都是没价值的,搜索引擎认为转载内容不如原创内容重要,赋予原创性的内容页 面有着更高的权重,而镜像内容则几乎被忽略

转载页面

转载页面是指那些与原创页面的正文内容(搜索引擎通过算法,清楚文章页面多余的信息,例如:广告,图片,侧边栏,然后,就得到正文内容)相近或相同 的页面。然后,搜索引擎如何识别转载页面呢?首先,把正文内容分为N个区域,如果有M个区域(M是搜索引擎指定的一个阈值)是相同或者相似的,则搜索引擎 认为这些页面互为转载内容,

如下图,页面一与页面二是不同站上的两个页面,其中页面1中的A和页面2上的B分别是这两个页面上的正文内容。为了识别这两个页面是否互为转载页 面,搜索引擎先把这两个页面的正文内容分成四个区域进行比较。假设这四个区域中有3个是完全相同或者相似的,则认为这两个页面时互为转载的。

在确定页面是否为转载页面后,接下来,搜索引擎再结合页面的修改时间(搜索引擎在抓取页面时已经存储的附加信息,下在一节《搜索引擎工作原理- 搜索引擎对页面的收录(三)》)、页面权重等因素判断是原创页面还是转载页面。

镜像页面

内容完全相同的页面互为镜像页面。要想判断页面是否互为镜像页面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个区域的内容完全一样,则 认为这些也页面互为镜像页面。然后再综合页面权重值,页面修改时间,判断那个才是源页面,那个是镜像页面。

如下图,页面一及页面二,是不同的站上的两个页面。把这两个页面分成三个区域进行比较(即A-1、A-2、A-3和B-1、B-2、B-3),如 果这三个区域的页面内容完全一致,则认为这两个也米娜互为镜像页面

镜像站

镜像站是指内容完全相同的站,形成镜像站主要有两种情况:种是多个域名或IP指向同一服务器的同一目录:另外一种是整个站内容被复制到 时用不同域名或者IP的服务器上。

为了识别站点是否互为镜像站,搜索引擎首先判断这些站的首页以及与首页直接连接的页面是否互为镜像也米娜。如果是,为镜像站。然后综合 站权重值、建立时间等)识别那个是源站,那个是镜像站。这样,以后抓取页面就集中在源站进行,这就是为什么一些镜像站被搜索引擎舍弃,或者收录少 的原因。

原创文章如转载,请注明:转载自大敏博客 [ ]

本文链接地址:

注:相关站建设技巧阅读请移步到建站教程频道。

塑料托盘
墨兰公主洗发水
北方基因
推荐阅读
图文聚焦