主页 > 编程 > python >

用python爬取百度知道,建设网站文章标题和词库

2019-02-18 10:00 阅读:158 来源:智宇SEO自媒体

  随着SEO技术规则越来越透明化,seo行业的竞争也愈加激烈。做SEO最关键点在于文章,而文章的基础是网站关键词库的建设。这方面的知识很多SEO大佬都分享过。智宇跟大家分享如何利用百度知道的标题,提取出关键词然后整合一个符合SEO要求的标题。

  当然了分享的开始也是基于python爬虫。百度知道的一个关键词一般有76页760个回答。所以我们写一个爬虫把76页问题,全部抓取下来。然后利用百度知道的标题整合自己的文章标题。

用python爬取百度知道,建设网站文章标题和词库

  今天要爬取的关键词是 “seo”。

用python爬取百度知道,建设网站文章标题和词库

  好了760问答已经全部爬取,并保存在excel表格里了。

用python爬取百度知道,建设网站文章标题和词库

  第一步,从知道excel表格里提取一个标题,如下:

  seo站内优化与站外优化有什么区别?
 

  第二步,找出标题里的重点词,这里我们选两个词,“站内优化”和“站外优化”
 

  第三步,用,查找两个上述重点词的百度指数。

用python爬取百度知道,建设网站文章标题和词库

  搜索 “站内优化”------>什么是优化 (指数58)

  搜索 “站外优化”------>关键词优化(指数259)

  由于上述两个词用智宇长尾词工具,并不能找到完全匹配的。所以我们找了两个指数高于50,词义与它们相近的词。“什么是优化”和“关键词优化”
 

  第四步,整合新标题。

  如下:

  什么是关键词优化?站内优化和站外优化的区别

  此步骤要点,指数高的关键词写在标题最左边。“什么是关键词优化”包含了“什么是优化”和“关键词优化”。后面“站内优化”和“站外优化”重复“优化”这个词,增加关键词的TF-idf权重。

  好了,现在可以根据这个标题,愉快的写文章了。只要你文章写的好,这个标题就能给你网站带来流量哦。

  OK,今天的分享就到这里了。小伙伴们是否有所收获呢?本来想把爬取百度知道的python工具公布出来了,但服务器的配置实在是太渣了,怕影响网站运行。如果你有挖掘百度知道关键词的需求可以联系我。