牛人写的代码。非常细致实用,唯一郁闷的是用的是Python 3。
http://bbs.pinggu.org/thread-3491009-1-1.html
1.简介
为了获得免费且可靠的期货日行情数据,我设计并编写了四个爬虫,分别从中国金融期货交易所(CFFEX)、上海期货交易所(SHFE)、大连商品期货交易所(DCE)和郑州商品期货交易所(CZCE)官方网站上爬取并整理数据。每个爬虫对应一个类(class):MarketDataFromCFFEXV、MarketDataFromSHFE、MarketDataFromDCE、MarketDataFromCZCE。每个爬虫可以完成网友爬取、数据清洗、数据入库等工作。爬取的数据,可以为以后的品种选择模型等应用提供可靠的数据源。
2.重要的知识
1)如何获取实际的url
2)Python3中的urllib模块
3)Python3的编码和解码
4)正则表达式
5)pyquery模块
6)Python如何和sqlite数据库进行交互
3.如何使用(以DCE为例)
1)爬取某天的数据(用于更新)
首先创建对象:test=MarketDataFromDCE('2014/10/15'),表示获取2014年10月15日的交易行情数据。初始化对象时,需要传入日期参数,日期参数为字符串类型,且必须写成”2014/10/15”、”2014/01/01”的形式。
获取网页数据:test.GetNeededData()。上面创建的test对象调用GetNeededData()方法来爬取数据,爬取得到的数据放在属性Data中。如果要查看Data,直接打印即可:print(test.Data)。
数据入库:test.InsertDataToDB()。这个方法创建
http://bbs.pinggu.org/thread-3491009-1-1.html
1.简介
2.重要的知识
1)如何获取实际的url
2)Python3中的urllib模块
3)Python3的编码和解码
4)正则表达式
5)pyquery模块
6)Python如何和sqlite数据库进行交互
3.如何使用(以DCE为例)
1)爬取某天的数据(用于更新)
