点击下方红字获取sitemap配置文件,一键导入。
永恒君经常会在知乎上查看别人分享的知识内容,也会根据自身的情况回答网友的一些问题。有时候针对一个知识点,希望能很快的搜索到最近的一些高质量文章,或者是一些回答数相对少的问答,这个时候有一个类似目录的列表会非常方便。
webscraper就可以帮我们快速的建立这样的目录。
例如,知乎中搜索关键词“人声提取工具”,爬取的前100个文章或者问题的标题、链接、赞同数、评论数、发布日期。
需求分析
页面地址:
https://www.zhihu.com/search?type=content&q=人声提取工具
这个页面一直向下拖动,会有页面加载出来,有的时候可以向下滚动非常多次。为了说明问题,这里只抓取前100个文章或者回答的数据。
这个实例和上一篇爬取热门微博的实例(5)用到的是同一个选择器 - Element scroll down
配置运行
1、Element scroll down选择器配置
注意:抓取前100条信息selector需要在页面选择好元素后,手工后面输入:nth-of-type(-n+100)
,永恒君这里添加后的代码是.Card[data-za-detail-view-path-module]:nth-of-type(-n+100)
2、接下来配置抓取标题、链接、赞同数、评论数、发布日期,这个比较简单。
整体的结构图:
web scraper爬取后稍微整理的结果:
有了这个表格,筛选出高质量文章,或者是一些回答数相对少的问答的很方便了。
更换关键词
如果要更换爬取的关键词,把关键词直接更换一下,输入浏览器即可,比如关键词是“基金”,那么起始网址就是:
https://www.zhihu.com/search?type=content&q=基金
这样的话就可直接使用了。
如果你希望可以同时爬取多个关键词,例如你想一次性爬取“vba”、“基金”两个关键词的搜索。可以在起始页的位置,点击+
,挨个添加即可。
如果你的关键词比较多,需要用到一点小技巧:
1、将所有的关键词复制粘贴到到永恒君写好的excel中第一列,点击“合并”按钮,生成新的字符串序列。
2、打开sitemap,将startUrl后面中括号里面的内容替换成刚刚生成的字符串序列。
3、把这个新的sitemap导入到webscraper当中,保存好。查看起始页的位置,如下图:
这样说明设置成功了,可以直接运行了。
抓取的结果: