搜索引擎是如何工作的

    技术2024-11-19  7

    搜索引擎是如何工作的(1) 

    当我们在搜索引擎上键入词组进行搜索时可能并没有想过,它是如何把我们想要的资料在那么短的时间内找出来。事实上几乎所有的搜索引擎都会有下列的功能以保证它能够又好又快的为我们提供资料。

    1,爬行整个Web(crawling Web)

    搜索引擎自动运行的程序通过Web的超级链接(Hyperlink)结构爬行整个Web上的所有网页文档。这种程序通常被称做嗅控程序(bots)或爬行程序(spider)。

    2,收录文档(index document)

    当程序爬每行过一个网页文档时,文档的内容可能被搜索引擎收录(或称索引,index),保存在一个巨大的数据库中,从而组成搜索引擎的索引。当然了这些索引必须组织的非常好(到于如何实现我就不知道了,呵呵),这样当我们在搜索引擎进行搜索时,搜索引擎能够快速的众索引中找出我们要的信息。所以,如果你认为你在搜索引擎那边搜索时,搜索引擎才对整个巨大的Web进行搜索是不可能的。

    3,处理查询(processing queries)

    当搜索引擎收到一个搜索请求(一天可能有上亿个这样的请求),搜索引擎会检索它构建起来的索引来查找匹配查询的文档。它是以文档中是否出现以用户指定的形式出现的词语或短语。比如我们搜索car and driver magazine和“car and driver magazine”,前者在google会返回很多的结果,而后者只有几万个。因为前一个搜索通常被认为是查找所有的模式,google会返回所有内容中包含有car,driver,magazine的文档,而后者则指定了要以car and driver magazine这个词组的形式出现的文档才会被返回。事实上google有一个操作符列表 ,这些操作符可以用来帮我们更精确的查找资料,过滤掉一些结果。

    4,对查询结果分级(Ranking Result)

    一旦搜索引擎决定返回哪些结果作为匹配查询的结果时,搜索引擎会对所有准备返回的结果应用算法进行计算以决定各个结果是与用户的查询内容的匹配程度(或精确度吧),然后排序,当然是把最接近的结果放在前面这样用户就不要自己选了。

    最新回复(0)