有关webscraper的问题，看这个就够了（建议收藏）

2018-08-06 18:31阅读：

http://blog.sina.cn/dpool/blog/u/2860631725

之前写过一篇「不用写代码，30 秒抓取李笑来所有微博」，链接：https://www.jianshu.com/p/bfeb13908571，介绍了如何使用 webscraper 抓取新浪微博，有同学在操作的过程中遇到一些问题，其中有一些常见问题，我将其总结如下，希望可以对大家有一点帮助。
可能有朋友不知道 webscraper，我再介绍一下：webscraper 一一款谷歌插件，可以方便的抓取网页上的内容：文字、链接、图片、表格等，而无需写一行代码。
webscraper 有如下优点——

免费
不受操作系统限制，只要安装 Chrome 浏览器即可运行
操作简单，易上手。（很多没有技术背景的同学，都可以快速学会）
功能强大：不仅可以抓静态网页，对于 js 动态加载的数据，也很容易抓取

根据已经测试的经历，下列类型网站均可抓取——

58 同城、大众点评、美团、链家等
微信公众号、简书、知乎、博客等
淘宝、阿里巴巴、网易严选等

可以在浏览器查看到的数据，95% 均可抓取。

你可能会问，那剩下的 5% 是什么呢？—— 等你遇到再说吧，如果遇不到，那对你来说，就是 100% 了 [微笑]

一、常见问题

1、下载了 webscraper 安装包，但是无法安装，怎么办？

如果你无法科学上网，可以从链接: https://pan.baidu.com/s/1eTn8up8 密码: jpqy 下载 webscraper 安装包。
下载好以后，将此安装包，拖到 chrome://extensions/ 页面，按照提示安装即可。

提示：！！下载好的安装包，不能直接双击安装

2、webscraper 安装好后，打开没有看到工作界面，怎么办？

有的同学，webscraper 安装成功，然后在浏览器点击 “右键” ----> “检查” 后，出现如下界面。
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

红框处，没有出现 webscraper 的入口。
解决方案：将开发者工具，调试成底部模式，操作步骤如下图——
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

调成 “底部” 模式后，就正常了，如下图——
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

3、第一个例子，抓取知乎张佳玮的文章列表，为什么结果顺序和网站不一样？

webscraper 抓取数据的结果，默认是无序。若是想要结果变的有序，需要安装 CouchDB，这点在第三次分享中有讲到。

4、知乎张佳玮的文章总共有 30 多页，几百条数据，为什么我只抓到了 20 条？

因为你抓取的是单页数据，所以只有 20 条。
如何抓取多页，在第二次分享中有讲到。

5、数据下载到本地后，用 excel 打开后为什么是乱码？

这是由于你 excel 的编码问题，解决方案：百度 “excel 打开乱码”，有很多方法。

6、我想抓取多条记录，但为什么结果只有一条？

你没有勾选 Multiple。

7、data preview 的时候有多条数据，但实际为什么只抓到几条？

你可能忘记设置 delay 了，或者需要将 delay 增大一点，这点你需要根据自己的网络状况调整一下。

8、data preview 的时候有数据，但 scrape 的时候却没有结果？

3 种可能情况——
1）你选中了网页元素，但是没有点击 “Done selecting'，也就是没有完成最后一步，正确选中网页元素后，在 Selector 最右边，会出现一段「代码」，有了这段「代码」才代表选中元素完成。
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

image.png
2）选择器没选对，这个就比较复杂了，需要根据实际情况分析
3）网站有反爬虫，所以无法实际抓取

9、抓取图片时，开始抓取后，就不工作了，一直卡在那里

2 种可能情况——
1）网络问题：关闭这个弹出窗口，重新抓取
2）下载的图片数量太大，浏览器卡死、崩溃

提示：webscraper 不适合下载大量图片；
百度搜索图片、搜狗搜索图片都有反爬，不能下载。

10、想选中某个元素，但一点击就会跳转，怎么解决？

跳转问题，第三次分享有讲到。如果着急，可以自己摸索一下，点击下图这个 enable key，然后出现 spc 键，将鼠标移动到你要点击的地方，按下 s 键
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

11、抓取的内容除了 excel，可以导出为其他格式吗？

不可以，webscraper 暂时只支持导出 excel

12、有时候点击 create sitemap 按钮没反应，怎么回事？

这种情况一般出现在，安装并启用 CouchDB 后。

解决方法：打开 CouchDB，重启浏览器。

原理：创建 sitemap，本质就是将 sitemap name 和 start url 这两条数据存储到磁盘上，但现在存储不了，说明你和磁盘中间的存储过程出现问题。
而你现在用的是 CouchDB 存储数据，说明 CouchDB 这一步有问题，而 CouchDB 数据库一般不会出问题，所以问题就是你没有打开 CouchDB，需要手动打开 CouchDB。
CouchDB 是一个基于 js 的数据库，需要和浏览器交互，所以你需要让浏览器知道，你打开了 CouchDB，所以这时候，如果创建 sitemap 还不成功，就需要重启浏览器，让它知道，哦，现在 CouchDB 已经启动了，我可以用它了。

13、为什么我的 excel 里面部分列内容和教程里的不一样？

大家安装的 webscraper 方式不同，版本也可能不同。所以结果显示可能有所差别，但是差别肯定不会影响到真实数据。
可能就是多了一列 web-scraper-start-url，或者少了这一列。或者其他。这些都不是大问题。
大家自己根据实际情况，不要觉得和教程里面的结果不一样，就觉得自己的数据有问题。
遇到不一样的地方，不要着急，先查看哪里不一样，然后分析下不同之处的意义。
如果不同之处只是一些 “通识” 性的信息，比如 start URL、或者页码数、或者其他，而自己需要的数据抓取到了，就说明那些不同之处是软件自动附带的，可能为的是更清楚的表明数据的来源或者其他。

14、为什么抓取完成后，什么也没有，显示 “No data scraped yet”？

最近几天，发现 webscraper 的一些细节功能发生了变化，原来是 12 月 22 日更新了新版本，有了一些新变化，具体细节如下：
1）抓取 image 的时候，“Download image” 这个选项消失了。如图一。
2）点击 “scrap' 以后的设置界面，原来的默认值有了变化，从 5000 变为 2000。如图二
3）抓取完毕后，不会直接显示数据，需要点击一个”refresh“这个按钮，如图三
4）抓取结果中，多了一列 “web-scraper-order”，暂时不清楚用途。如图四
我暂时只发现这些变化，但是这些变化都不影响我们的数据结果。大家可以忽略。
可能有的人的 webscraper 版本没有这些变化，那就忽略就行了。
有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

有关webscraper的问题，看这个就够了（建议收藏）

image.png

15、抓取图片没有 “Download image” 选项，怎么办？

之前说过 webscraper 的最新版本去除了 “Download image' 选项，也就是批量下载图片的功能，最新版本现在只能抓取图片链接。
解决方案有 2 种——
1、批量抓取到图片的链接，然后使用迅雷等下载工具批量下载。
2、卸载掉最新的 webscraper，安装老版本，可以从这里下载，链接: 链接：百度网盘请输入提取密码密码: i7e9
老版本依然是有”Download image' 这个选项的。
注意不要科学上网，否则 webscraper 可能会自动更新到最新版本。

16、安装 CouchDB 后，http://127.0.0.1:5984/_utils/ 为什么打不开？

配置 couchDB 时当在网页输入链接链接：http://127.0.0.1:5984/_utils/ 时，如果发生网页崩溃或打不开要求界面时，只需打开下载的文件 couchdb-2.1.1

举报/Report

我的更多文章

下载客户端阅读体验更佳