搜索引擎

体系结构

spider-index-ranking-query-Anti-Spam

index

得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页建立索引。为了加快响应用户査询的速度，网页内容通过“倒排索引”这种高效查询数据结构来保存，而网页之间的链接关系也会予以保存。之所以要保存链接关系，是因为这种关系在网F相关性排序阶段是可利用的，通过“链接分析”可以判断页面的相对重要性，对于为用户提供准确的搜索结果帮助很大。

query

首先需要对查询词进行分析，希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后，首先在缓存中査找，搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果，如果能够在缓存系统找到满足用户需求的信息，则可以直接将搜索结果返回给用户，这样既省掉了重复计算对资源的消耗，又加快了响应速度;

(1)按频次排定次序，通常，如果一个页面包含了越多的关键词，其搜索目标的相关性应该越好，这是非常合乎常理的解决方案。 (2)按页面被访问度排序在这种方法中，搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息，或者有其他吸引入的长处。这种解决方案适合一般的搜索用户，而因为大部分的搜索引擎都不是专业性用户，所以这种方案也比较适合一般搜索引擎使用。 (3)二次检索进一步净化(比flne)结果，按照一定的条件对搜索结果进行优化，可以再选择类别、相关词进行二次搜索等。

ranking

而网页排序最重要的两个参考因素中，一个是内容相似性因素，即哪些网页是和用户查询密切相关的；另外一个是网页重要性因素，即哪些网页是质量较好或者相对重要的，这点往往可以从链接分析的结果获得。

去重

不再进行分词，而是进行“分句”，用标点符号把长文按照句子分开，使用N个句子集合（例如一篇文章中5条最长的句子作为签名，注意，长句子比短句子更具有区分性）作为文章的签名，在抄袭成风的互联网环境下，此法判断网页的重复度能大大降低工程复杂度，并且准确度也异常的高。

最好百科-发现最好的商品、宾馆、餐馆...

目录

搜索引擎

体系结构

index

query

ranking

去重

最好百科-发现最好的商品、宾馆、餐馆...

用户工具

站点工具

目录

搜索引擎

体系结构

index

query

ranking

去重

页面工具