新浪博客

有关webscraper的问题,看这个就够了(建议收藏)

2018-08-06 18:31阅读:
之前写过一篇「不用写代码,30 秒抓取李笑来所有微博」,链接:https://www.jianshu.com/p/bfeb13908571,介绍了如何使用 webscraper 抓取新浪微博,有同学在操作的过程中遇到一些问题,其中有一些常见问题,我将其总结如下,希望可以对大家有一点帮助。
可能有朋友不知道 webscraper,我再介绍一下:webscraper 一一款谷歌插件,可以方便的抓取网页上的内容:文字、链接、图片、表格等,而无需写一行代码
webscraper 有如下优点——
  1. 免费
  2. 不受操作系统限制,只要安装 Chrome 浏览器即可运行
  3. 操作简单,易上手。(很多没有技术背景的同学,都可以快速学会)
  4. 功能强大:不仅可以抓静态网页,对于 js 动态加载的数据,也很容易抓取
根据已经测试的经历,下列类型网站均可抓取——
  1. 58 同城、大众点评、美团、链家等
  2. 微信公众号、简书、知乎、博客等
  3. 淘宝、阿里巴巴、网易严选等
可以在浏览器查看到的数据,95% 均可抓取。
你可能会问,那剩下的 5% 是什么呢?—— 等你遇到再说吧,如果遇不到,那对你来说,就是 100% 了 [微笑]

一、常见问题

1、下载了 webscraper 安装包,但是无法安装,怎么办?

如果你无法科学上网,可以从链接: https://pan.baidu.com/s/1eTn8up8 密码: jpqy 下载 webscraper 安装包。
下载好以后,将此安装包,拖到 chrome://extensions/ 页面,按照提示安装即可。
提示:!!下载好的安装包,不能直接双击安装

2、webscraper 安装好后,打开没有看到工作界面,怎么办?

有的同学,webscraper 安装成功,然后在浏览器点击 “右键” ----> “检查” 后,出现如下界面。
有关webscraper的问题,看这个就够了(建议收藏)

红框处,没有出现 webscraper 的入口。
解决方案:将开发者工具,调试成 底部 模式,操作步骤如下图——
有关webscraper的问题,看这个就够了(建议收藏)

调成 “底部” 模式后,就正常了,如下图——
有关webscraper的问题,看这个就够了(建议收藏)

3、第一个例子,抓取知乎张佳玮的文章列表,为什么结果顺序和网站不一样?

webscraper 抓取数据的结果,默认是无序。若是想要结果变的有序,需要安装 CouchDB,这点在第三次分享中有讲到。

4、知乎张佳玮的文章总共有 30 多页,几百条数据,为什么我只抓到了 20 条?

因为你抓取的是单页数据,所以只有 20 条。
如何抓取多页,在第二次分享中有讲到。

5、数据下载到本地后,用 excel 打开后为什么是乱码?

这是由于你 excel 的编码问题,解决方案:百度 “excel 打开乱码”,有很多方法。

6、我想抓取多条记录,但为什么结果只有一条?

你没有勾选 Multiple

7、data preview 的时候有多条数据,但实际为什么只抓到几条?

你可能忘记设置 delay 了,或者需要将 delay 增大一点,这点你需要根据自己的网络状况调整一下。

8、data preview 的时候有数据,但 scrape 的时候却没有结果?

3 种可能情况——
1)你选中了网页元素,但是没有点击 “Done selecting',也就是没有完成最后一步,正确选中网页元素后,在 Selector 最右边,会出现一段「代码」,有了这段「代码」才代表选中元素完成。
有关webscraper的问题,看这个就够了(建议收藏)
image.png
2)选择器没选对,这个就比较复杂了,需要根据实际情况分析
3)网站有反爬虫,所以无法实际抓取

9、抓取图片时,开始抓取后,就不工作了,一直卡在那里

2 种可能情况——
1)网络问题:关闭这个弹出窗口,重新抓取
2)下载的图片数量太大,浏览器卡死、崩溃
提示:webscraper 不适合下载大量图片;
百度搜索图片、搜狗搜索图片都有反爬,不能下载。

10、想选中某个元素,但一点击就会跳转,怎么解决?

跳转问题,第三次分享有讲到。如果着急,可以自己摸索一下,点击下图这个 enable key,然后出现 spc 键,将鼠标移动到你要点击的地方,按下 s 键
有关webscraper的问题,看这个就够了(建议收藏)

11、抓取的内容除了 excel,可以导出为其他格式吗?

不可以,webscraper 暂时只支持导出 excel

12、有时候点击 create sitemap 按钮没反应,怎么回事?

这种情况一般出现在,安装并启用 CouchDB 后。
解决方法:打开 CouchDB,重启浏览器。
原理:创建 sitemap,本质就是将 sitemap name 和 start url 这两条数据存储到磁盘上,但现在存储不了,说明你和磁盘中间的存储过程出现问题。
而你现在用的是 CouchDB 存储数据,说明 CouchDB 这一步有问题,而 CouchDB 数据库一般不会出问题,所以问题就是你没有打开 CouchDB,需要手动打开 CouchDB。
CouchDB 是一个基于 js 的数据库,需要和浏览器交互,所以你需要让浏览器知道,你打开了 CouchDB,所以这时候,如果创建 sitemap 还不成功,就需要重启浏览器,让它知道,哦,现在 CouchDB 已经启动了,我可以用它了。

13、为什么我的 excel 里面部分列内容和教程里的不一样?

大家安装的 webscraper 方式不同,版本也可能不同。所以结果显示可能有所差别,但是差别肯定不会影响到真实数据。
可能就是多了一列 web-scraper-start-url,或者少了这一列。或者其他。这些都不是大问题。
大家自己根据实际情况,不要觉得和教程里面的结果不一样,就觉得自己的数据有问题。
遇到不一样的地方,不要着急,先查看哪里不一样,然后分析下不同之处的意义。
如果不同之处只是一些 “通识” 性的信息,比如 start URL、或者页码数、或者其他,而自己需要的数据抓取到了,就说明那些不同之处是软件自动附带的,可能为的是更清楚的表明数据的来源或者其他。

14、为什么抓取完成后,什么也没有,显示 “No data scraped yet”?

最近几天,发现 webscraper 的一些细节功能发生了变化,原来是 12 月 22 日更新了新版本,有了一些新变化,具体细节如下:
1)抓取 image 的时候,“Download image” 这个选项消失了。如图一。
2)点击 “scrap' 以后的设置界面,原来的默认值有了变化,从 5000 变为 2000。如图二
3)抓取完毕后,不会直接显示数据,需要点击一个”refresh“这个按钮,如图三
4)抓取结果中,多了一列 “web-scraper-order”,暂时不清楚用途。如图四
我暂时只发现这些变化,但是这些变化都不影响我们的数据结果。大家可以忽略。
可能有的人的 webscraper 版本没有这些变化,那就忽略就行了。
有关webscraper的问题,看这个就够了(建议收藏)
有关webscraper的问题,看这个就够了(建议收藏)
有关webscraper的问题,看这个就够了(建议收藏)
有关webscraper的问题,看这个就够了(建议收藏)
image.png

15、抓取图片没有 “Download image” 选项,怎么办?

之前说过 webscraper 的最新版本去除了 “Download image' 选项,也就是批量下载图片的功能,最新版本现在只能抓取图片链接。
解决方案有 2 种——
1、批量抓取到图片的链接,然后使用迅雷等下载工具批量下载。
2、卸载掉最新的 webscraper,安装老版本,可以从这里下载,链接: 链接:百度网盘 请输入提取密码 密码: i7e9
老版本依然是有”Download image' 这个选项的。
注意不要科学上网,否则 webscraper 可能会自动更新到最新版本。

16、安装 CouchDB 后,http://127.0.0.1:5984/_utils/ 为什么打不开?

配置 couchDB 时 当在网页输入链接链接:http://127.0.0.1:5984/_utils/ 时,如果发生网页崩溃或打不开要求界面时,只需打开下载的文件 couchdb-2.1.1

我的更多文章

下载客户端阅读体验更佳

APP专享