蜘蛛爬行可以分为两种方式:广度爬行和深度爬行。我们建议收录的网页不能随便修改路径,否则会形成死链接,蜘蛛无法抓取。JavaScript可能是一只被困在黑洞里的蜘蛛。 3.过滤(液体、气体、光、声音等) 各个网站的空资源是有限的,而互联网的信息资源是无限的。用有限的资源安装无限的内容显然是不合理的。互联网每天都会产生大量垃圾或低质量的内容,即使是大型网站也无法避免这些问题。只有减少垃圾或低质量内容的产生,网站才能有更好的记录,给蜘蛛一种信任感。垃圾或低质量内容怎么办?比如灰色网站产生的大量信息属于垃圾信息,而空白页等低质量内容或者网页内容只是直接复制粘贴,处理比较粗糙,没有解决用户的实际需求。通过过滤这些内容,蜘蛛的爬行工作会容易得多。 4.存储索引库 蜘蛛经过爬行和过滤后,根据规则建立索引数据库,并将内容存储为关键词。在存储索引数据库的过程中,搜索引擎会更新新内容,替换旧内容进行排序。这样用户可以在十分之几秒钟内向用户显示数百万甚至数百万条搜索信息。 5.显示排序, 存储索引和表示排序之间还有一个不可见的过滤器。根据匹配原则和搜索引擎的算法,内容将在最后一次呈现时进行排序。比如一个用户搜索“SEO研究中心”,百度可能会根据权重或关键词匹配等诸多因素将SEO研究中心排在百度的前几位。能够满足用户实际需求的高质量网页,在首页上会有更好的显示和排名。当然,这里不讨论竞价排名的原则。 (责任编辑:admin) |