主页 > SEO知识 > SEO基础 >

搜索引擎如何将分析出正文?什么是页面结构化

2019-03-06 09:07 阅读:91 来源:智宇SEO自媒体

  什么是页面结构化?

  蜘蛛爬虫爬取下载页面后,搜索引擎分析系统开始从下载页面中抽取出有价值的能够代表页面的属性。比如锚文本,标题,正文等。并将这些要素组合成一个网页对象,这种处理称为“页面结构化”。

  一般来说完成了页面结构化一般具有5个要素:

  1. 页面标题

  2. 正文标题

  3. 正文

  4. 正向链接集合

  5. 指向自身的锚文本,对页面的描述

  搜索引擎分析系统如何分析网页?

  1. 建立HTML标签树

  为了清楚描述网页内容的组织结构,将网页中的标签按照出现的顺序依次整理出来并用适当的结构记录,由于标签之间的嵌套关系,因此整理结果自然是一颗树状结构。称为标签树。

搜索引擎如何将分析出正文?什么是页面机构化

  2. 通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

  因为分析系统判定完整的正文模块非常复杂。网页中没有明显的正文标签。而且正文分布在不同的html标签中。所以如何完整的组合出正文是分析系统要解决的问题。可以将标签中的正文看成一个文本块。一般来说网页会出现3种文本块。

  A. 主题型文本块

  大段文字的文本块

  B. 目录型文本块

  描述链接的文本块

  C. 图片型文本块

  描述图片的文本块

  目录型文本块和图片型文本块很容易被区分,而主题型文本块中可能含有广告等其他内容。

  引入投票算法来判断正文是搜索引擎常用的算法。

  投票概念大家都知道,就不解释了。直接举个例子:

  A. 如果文本块长度为10个字,得分0,介于10个到50个得分5,介于50到250个得分8,超过250个得分10.

  B. 如果文本块在右侧,得分0,在顶部得分3,在左侧得分5,在中间得分10。

搜索引擎如何将分析出正文?什么是页面机构化

  每个规则打分后,累积的总分为文本块1和10分,远大于文本块2的4分。所以认为文本块1是正文。现在型的搜索引擎得分算法非常的复杂,但原理是这样的。

  3. 将各个文本块组织成一个正文

  用深度优先遍历标签树依次记录主题类型的文本块,就可以得到一个完整的正文。

  4. 锚文本提取

  采用分块计算的方法,进行锚文本提取。

  总结:从搜索引擎页面结构化的过程,我们可以学到很多,比如页面布局关键词的时候,写在页面不同地方的关键词权重是不一样的。如果把页面关键词布局到搜索引擎认为不是正文的部分,显然这样的关键词权重就低。其次对理解对页面降噪也有一定的帮助。