在互联网发展的早期,以雅虎为代表的网站分类目录搜索非常流行。网站的分类目录是人工组织和维护的。网上优秀的网站都是经过挑选,简述,分类,放在不同的目录下。用户查询时,通过层层点击,可以找到自己想要的网站。也有人把这个基于目录的搜索服务网站称为搜索引擎,但严格来说,它不是搜索引擎。 [分类] 1.全文索引 全文搜索引擎 它是一个名副其实的搜索引擎,以国外的谷歌为代表,在国内很有名 百度搜索。他们从互联网(主要是网页)上提取各个网站的信息,建立数据库,可以检索到符合用户查询条件的记录,并按一定顺序返回结果。 根据搜索结果的不同来源, 全文搜索引擎可以分为两类,一类有自己的索引器,俗称“蜘蛛”程序或“机器人”程序,可以构建自己的web数据库,搜索结果可以直接从自己的数据库中调用。上面提到的Google和百度就属于这一类;另一种是租用其他搜索引擎的数据库,按照自己的格式排列搜索结果,比如Lycos搜索引擎。 2.目录索引 目录索引虽然有搜索功能,但严格来说不能称之为真正的搜索引擎,只是按目录分类的网站链接列表。用户可以根据分类目录找到需要的信息,不需要依靠关键字进行查询。目录索引最有代表性的是著名的雅虎, 新浪分类目录搜索。 3、 元搜索引擎元搜索引擎 (META Search Engine)在收到用户的查询请求后,同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的 元搜索引擎有InfoSpace,Dogpile,Vivisimo等。,而有代表性的中文元搜索引擎就是明星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,比如Dogpile;还有的按照自己的规则重新排列结果,比如Vivisimo。 其他非主流搜索引擎形式: 1.集合搜索引擎:这个搜索引擎类似于元搜索引擎,只是它不同时调用多个搜索引擎进行搜索,而是由用户从提供的几个搜索引擎中进行选择,比如2002年底HotBot推出的搜索引擎。 2.门户搜索引擎:AOL搜索、MSN搜索等。提供搜索服务,但他们既没有分类目录也没有网络数据库,他们的搜索结果来自其他搜索引擎。 3.免费所有链接列表(简称FFA):一般只有链接项简单滚动,少数有简单分类目录,但规模比雅虎大!比如目录索引就小很多。 [工作原理] 1.抓取网页 每个独立的搜索引擎都有自己的 网页抓取程序(蜘蛛)。Spider跟随网页中的超链接,持续抓取网页。已爬网网页被称为 网页快照。由于超链接在互联网上被广泛使用,理论上,大多数网页可以从一定范围的网页中收集。 (责任编辑:admin) |