由”网站排名下降”谈网页去重的重要性
2011年10月23日
没有评论
大家都知道搜索引擎抓取网站,并给与快照排名有三个步骤。今天我写的文章核心是“索引”这里面的“去重”环节,去重也就是去掉重复的内容工作。网页去重的重要性有多大?大家可以去搜索下有很多鲜明的案例。我先叙述下我所了解到的信息,最后提供个小case。大家感兴趣的可留言讨论,灌水的就不要了。
去重所处的位置:SE抓网页-分析-去重-建索引
爬虫遵循的协议集: socket编程, http协议分析
网页解析: 词法解析,编译原理,html协议
去重: url消重,文本关键词提取,频度分析 (这个最难)
去重算法我5、6月份时候也曾搜索了一段时间,无功而返。运营bbs的童靴应对“去重”加以重视!前阵子seowhy改版,大家都晓得是论坛的垃圾内容太多了,灌水严重导致大量的和网站主题不相干的内容出现,误导SE认为你的站内容和你的meta里信息不符合,seowhy的排名不是降了一阵子么。大家有兴趣可再搜搜,案例很多的。
上海seo红狼原创,谢绝转载。www.nicseo.com