本节书摘来自华章出版社《python数据分析与挖掘实战》一书中的第2章,第2.3节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区“华章计算机”公众号查看
python本身的数据分析功能不强,需要安装一些第三方扩展库来增强它的能力。本书用到的库有numpy、scipy、matplotlib、pandas、scikit-learn、keras和gensim等,下面将对这些库的安装和使用进行简单的介绍。
如果读者安装的是anaconda发行版,那么它已经自带了以下库:numpy、scipy、mat-plotlib、pandas和scikit-learn。
本章主要是对这些库进行简单的介绍,在后面的章节中,会通过各种案例对这些库的使用进行更加深入的说明。本书的介绍是有所侧重的,读者可以到官网阅读更加详细的使用教程。值得一提的是,本书所介绍的扩展库,它们的官网上的帮助文档都相当详细。
用python进行科学计算是很丰富的学问,本书只是用到了它的数据分析和挖掘相关的部分功能,所涉及的一些库如表2-4所示。读者可以参考书籍《用python做科学计算》了解更多信息。
限于篇幅,我们仅仅介绍本书的案例中会用到的一些库,还有一些很实用的库并没有介绍,如涉及图片处理可以用pillow(旧版为pil,目前已经被pillow代替)、涉及视频处理可以用opencv、涉及高精度运算可以用gmpy2等,而对于这些额外的知识,建议读者在遇到相应的问题时,自行到网上搜索相关资料。相信通过对本书的学习后,读者解决python相关问题的能力一定会大大提高的。
python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。为此,numpy提供了真正的数组功能,以及对数据进行快速处理的函数。numpy还是很多更高级的扩展库的依赖库,后面章节介绍的scipy、matplotlib、pandas等库都依赖于它。值得强调的是,numpy内置函数处理数据的速度是c语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。
在windows中,numpy安装跟普通的第三方库安装一样,可以通过pip安装:
也可以自行下载源代码,然后用
安装。在linux下上述方面也是可行的。此外,很多linux发行版的软件源中都有python常见的库,因此还可以通过linux自带的软件管理器进行安装,如在ubuntu下可以用
sudo apt-get install python-numpy
安装。安装完成后,可以使用以下命令进行测试。
numpy是python中相当成熟和常用的库,因此关于它的教程有很多,最值得一看的是它官网的帮助文档,还有很多中英文教程,读者遇到相应的问题时,可以自行搜索对应的内容。
参考链接:
如果说numpy让python有了matlab的味道,那么scipy就让python真正地成为了半个matlab了。numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。
scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。
scipy依赖于numpy,因此安装它之前得先安装numpy。安装scipy的方式与安装numpy的方法大同小异,需要提及的是,在ubuntu下也可以用类似的
安装scipy。安装好scipy后,可以通过以下命令简单试用。
不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于python来说,matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。它不但提供了一整套和matlab相似但更为丰富的命令,让我们可以非常快捷地用python可视化数据,而且允许输出达到出版质量的多种图像格式。
matplotlib的安装并没有什么特别之处,可以通过pip install matplotlib安装或者自行下载源代码安装,在ubuntu下也可以用类似的。
安装。matplotlib的上级依赖库相对较多,手动安装的时候,需要逐一把这些依赖库都安装好。安装完成后就可以牛刀小试了,下面是一个简单的作图例子,它基本包含了matplotlib作图的关键要素,作图效果如图2-5所示。
如果读者使用的是中文标签,就会发现中文标签无法正常显示。这是由于matplotlib的默认字体是英文字体所致,解决它的办法是在作图之前手动指定默认字体为中文字体,如黑体(simhei)。
另外,保存作图图像时,负号有可能显示不正常,可以通过以下代码解决:
终于谈到本书的主力工具—pandas了。pandas是python下最强大的数据分析和探索工具(貌似没有之一)。它包含高级的数据结构和精巧的工具,使得在python中处理数据非常快速和简单。pandas构建在numpy之上,它使得以numpy为中心的应用很容易使用。pandas的名称来自于面板数据(panel data)和python数据分析(data analysis),它最初被作为金融数据分析工具而开发出来,由aqr capital management公司于2008年4月开发出来,并于2009年底开源。
pandas的功能非常强大,支持类似于sql的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。事实上,单纯pandas工具就足以写一本书,读者可以阅读pandas的主要作者之一wes mckinney写的《利用python进行数据分析》一书,学习更详细的内容。
(1)安装
pandas的安装相对来说比较容易,安装好numpy之后,就可以直接安装了,通过pip install pandas或下载源码后python setup.py install安装均可。由于我们频繁用到读取和写入excel,但默认的pandas还不能读写excel文件,需要安装xlrd(读)和xlwt(写)库才能支持excel的读写,方法如下。
pip install xlrd #为python添加读取excel的功能
pip install xlwt #为python添加写入excel的功能
(2)使用
在后面的章节中,我们会逐步展示pandas的强大功能,而在本节,我们先以简单的例子一睹为快。
pandas基本的数据结构是series和dataframe。顾名思义,series就是序列,类似一维数组;dataframe则是相当于一张二维的表格,类似二维数组,它的每一列都是一个series。为了定位series中的元素,pandas提供了index对象,每个series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母、中文等,它类似于sql中的主键。
类似地,dataframe相当于多个带有同样index的series的组合(本质是series的容器),每个seiries都带有唯一的表头,用来标识不同的series。
由于pandas是本书的主力工具,在后面将会频繁使用它,因此在这里就不进行详细介绍了,在后面的使用过程中将会更加详尽地讲解pandas的使用方法。
pandas着眼于数据的读取、处理和探索,而statsmodels则更加注重数据的统计建模分析,它使得python有了r语言的味道。statsmodels支持与pandas进行数据交互,因此,它与pandas结合,成为了python下强大的数据挖掘组合。
安装statsmodels相当简单,既可以通过pip安装,又可以通过源码安装。对于windows用户来说,官网上甚至已经有编译好的exe文件以供下载。如果手动安装的话,需要自行解决好依赖问题,statmodel依赖于pandas(当然也依赖于pandas所依赖的),同时还依赖于pasty(一个描述统计的库)。
下面是一个用statsmodels来进行adf平稳性检验的例子。
adf(np.random.rand(100)) #返回的结果有adf值、p值等
从该库的名字可以看出,这是一个机器学习相关的库。不错,scikit-learn是python下强大的机器学习工具包,它提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。
scikit-learn依赖于numpy、scipy和 matplotlib,因此,只需要提前安装好这几个库,然后安装scikit-learn就基本上没有什么问题了,安装方法和前几节一样,要不就是pip install scikit-learn安装,要不就是下载源码自己安装。
创建一个机器学习的模型很简单:
1)所有模型提供的接口有:
model.fit():训练模型,对于监督模型来说是fit(x, y),对于非监督模型是fit(x)。
2)监督模型提供的接口有:
model.predict(x_new):预测新样本
model.predict_proba(x_new):预测概率,仅对某些模型有用(比如lr)
model.score():得分越高,fit越好
3)非监督模型提供的接口有:
model.transform():从数据中学到新的“基空间”。
model.fit_transform():从数据中学到新的基并将这个数据按照这组“基”进行转换。
scikit-learn本身提供了一些实例数据,比较常见的有安德森鸢尾花卉数据集、手写图像数据集等。我们有一百五十个鸢尾花的一些尺寸的观测值:萼片长度、宽度,花瓣长度和宽度。还有它们的亚属:山鸢尾(iris setosa)、变色鸢尾(iris versicolor)和维吉尼亚鸢尾(iris virginica)。
虽然scikit-learn足够强大,但是它并没有包含一种强大的模型—人工神经网络。人工神经网络是功能相当强大的、但是原理又相当简单的模型,在语言处理、图像识别等领域有着重要的作用。近年来逐渐火起来的“深度学习”算法,本质上也就是一种神经网络,可见在python中实现神经网络是非常必要的。
本书用keras库来搭建神经网络。事实上,keras并非简单的神经网络库,而是一个基于theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于theano的,因此速度也相当快。
有必要介绍一下theano,它也是python的一个库,它是由深度学习专家yoshua bengio带领的实验室开发出来的,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了gpu加速,使得密集型数据的处理速度是cpu的数十倍。
用theano就可以搭建起高效的神经网络模型,但是对于普通读者来说门槛还是相当高的,keras正是为此而生,它大大简化了搭建各种神经网络模型的步骤,允许普通用户轻松地搭建并求解具有几百个输入节点的深层神经网络,而且定制的自由度非常大,甚至可能惊呼:搭建神经网络可以如此简单!
安装keras之前首先需要安装numpy、scipy和theano。安装theano先要准备一个c++编译器,这在linux下是自带的。因此,在linux下安装theano和keras非常简单,只需要下载源代码,然后用python setup.py install安装就行了,具体可以参考官方文档。
可是在windows下就没有那么简单了,因为它没有现成的编译环境。一般而言是先安装mingw(windows下的gcc和g++),然后再安装theano(提前装好numpy等依赖库),最后安装keras。如果要实现gpu加速,还需要安装和配置cuda(天下没有免费的午餐,想要速度、易用两不误,那么就得花点心思)。限于篇幅,本书不详细介绍在windows下theano和keras的安装配置方法。
值得一提的是,在windows下keras的速度会大打折扣,因此,想要在神经网络和深度学习方面进行深入研究的读者,请在linux下搭建相应的环境。
用keras搭建神经网络模型的过程相当简洁,也相当直观,就像搭积木一般。通过短短几十行代码,我们就可以搭建起一个非常强大的神经网络模型,甚至是深度学习模型。简单搭建一个mlp(多层感知器),如下:
要注意的是,keras的预测函数与scikit-learn有所差别,keras用model.predict()方法给出概率,model.predict_classes()方法给出分类结果。
在gensim的官网中,它对自己的简介只有一句话:topic modelling for humans!
gensim是用来处理语言方面的任务,如文本相似度计算、lda、word2vec等,这些领域的任务往往需要比较多的背景知识,通常的情况是:研究这方面的读者,已经不需要我再多说什么;不研究这方面的读者,在这里也说不清楚。(所以gensim的介绍只有一句话也就不奇怪了。)
因此,在这一节中,只是提醒读者有这么一个库的存在,而且这个库很强大,如果用得到这个库,请读者去阅读官方帮助文档或参考链接。
需要一提的是,gensim把google公司在2013年开源的著名的词向量构造工具word2vec编译好了作为它的子库,因此需要用到word2vec的读者也可以直接用gensim而无需自行编译了。据说gensim的作者对word2vec的代码进行了优化,据说它在gensim下的表现比原生的word2vec还要快。(为了实现加速,需要准备c++编译器环境,因此,建议用到gensim的word2vec的读者在linux下环境运行。)
下面是一个gensim使用word2vec的简单例子。