主页 > SEO知识 > SEO基础 >

搜索引擎的系统结构

2019-02-20 10:12 阅读:95 来源:智宇SEO自媒体

   搜索引擎的系统结构
搜索引擎四大系统:

  1. 下载系统

  ——负责从网上下载各种类型的网页,并且保存对网页变化的同步

  2. 分析系统

  ——负责抽取下载得到的网页数据,进行PageRank和分词计算

  3. 索引系统

  ——负责将分析系统处理后的网页对象索引入库

  4. 查询(检索)系统

  ——负责分析用户查询请求,然后从索引库中检索中相关网页排序后,以查询结果形式返回给用户。

  1,2,3步骤为离线系统处理时间较长,4为在线系统对处理时间敏感,需要毫秒级。

  搜索引擎存储网页有两种方式,1是网页库方式2是成为网页对象存储在索引库中。

  搜索引擎下载系统最重要的功能是 网络爬虫(搜索引擎蜘蛛)。现代型的搜索引擎一般是多策略,负载均衡,大规模抓取。

  将万维网定义成一个相互连通的连通图,网页就是节点,链接就是边。任意一个网页可以被其他网页链接,这种链接是反向链接,这个网页同时链接其他网页,这种链接叫正向链接。

  万维网具有蝴蝶型结构
搜索引擎的系统结构

  1. 蝴蝶中部——这种类型网页彼此连接,任何去掉有限网页,不影响其连通度。

  2. 蝴蝶左部——这种类型是目录型网页,导航网页

  3. 蝴蝶右部——这种类型是权威性网页

  4. 蝴蝶须脚——从左部链接到其他网页,或者其他网页链入右部或者从左部直接链入右部

  蝴蝶模型结论:

  1.蜘蛛爬虫尽可能选择蝴蝶左部或者中部网页为始访问节点集合进行遍历。这样可以得到尽可能完整的变量效果。如果从右部或者须脚部分网页为起始节点,则只能抓取有限的网页。

  2.网页分为目录型网页和权威性网页,目录型网页为普通网民服务,权威性网页是处于蝴蝶中部或者右部的网页,这类网页的反向链接数量很多。而正向链接很少。通常认为这类网页比较重要。

  万维网直径:

  万维网直径(web直径):如果用d表示一条从网页U到网页V的路径,那么对这些万维网上所有不同的连通网页对所构成的最短路径平均长度就是web直径。

  爬虫蜘蛛采用宽度优先遍历方式,抓取重要性高的网页,采用web直径的深度策略,控制抓取深度。从而避免爬虫一路爬到黑的情况发生。