要开始商业数据分析,第一步需要的就是获取数据,然后对数据进行必要的清洗以及整理。Power Query就是获取数据以及进行数据整理的工作,今天我们就先介绍一下如何通过Power Query获取外部的数据。Power Query几乎支持从目前市面上可见的各种数据源中导入数据,可以说是为公司中各个不同的数据源之间打通了一个沟通的桥梁。
一、从Excel文件中获取数据
从Excel文件中获取数据是比较常见的业务场景,从Excel中导入数据常见的有两种方式,第一是直接将一个工作簿的数据进行导入,第二是通过表(表是Excel新版本中新增的一个概念,如果没有接触过的自行百度)的形式导入,下面详细讲解操作方式。
1.从表格导入
在【数据】选项卡下的【获取和转换】中有一个【从表格】的按钮,定位在工作表中的数据区域,直接点击该按钮即可,此时数据就会加载到power query编辑器中。
2.从工作簿导入
在【数据】选项卡下的【获取和转换】下的【新建查询】下的【从文件】的【从工作簿】按钮,可以从外部工作簿中导入文件。
点击按钮后,选择需要导入数据的工作簿,出现以下窗口。如果需要同时导入多个工作表的数据,勾选【选择多项】前面的复选框就可以同时选择多个工作表进行导入。
二、从文本文件进行导入
在我们工作中,还有一类数据是以文本格式进行存储的,常见的是txt格式或者csv格式,对于此类数据power query同样可以完美的导入。
1.csv导入
CSV文件一般是以逗号(,)分隔的一些结构化数据,如下图所示。
通过【数据】选项卡下的【获取和转换】下的【新建查询】下的【从文件】的【从CSV】按钮,可以导入CSV文件,在导入CSV文件时,需要根据文件的编码格式正确选择编码格式(常见的有UTF8,GBK,GB2312等)和分隔符(常见的为逗号)才能确保数据的正确导入。
2.txt文本文件
txt文本文件和CSV文件的操作时类似的。
3.xml文件
可扩展标记语言,标准通用标记语言的子集,简称XML。是一种用于标记电子文件使其具有结构性的标记语言。同样可以把xml的数据导入Excel中。
三、从数据库导入
数据库是我们在商业数据分析中获取数据的一个重要来源,通常情况下企业都会有一些自己的业务系统,业务系统中都有数据库,我们可以通过直接连接业务数据库进行数据分析。Power query基本上支持市面上常见的所有主流数据库,可以通过两个方式进行连接,具体介绍如下。
1.通过从数据库选项连接
在新建查询下的【从数据库】选项中,Excel提供了sqlserver、access、sqlserver analysis services三种数据库的连接,如果你使用的是此类数据库,可以直接通过该选项连接。其中sqlserver也是我们使用非常多的一个数据库产品。
下面给大家介绍下sqlserver导入数据的基本操作。选择【从sqlserver数据库】,然后在弹出的框中输入服务器地址,首次连接的时候还会要求输入连接数据库的用户名及密码,正确输入后就会跳转到导入数据的窗口,选择需要导入数据的数据库和表格即可完成导入。
2.通过ODBC数据源导入
借助ODBC数据源,我们可以连接其他常见的数据库,比如mysql、oracle等等。这里就以我们日常工作中使用较多的mysql进行介绍,关于mysql的安装及基本使用,可以参考我之前发的文章Excel数据分析高级技能之mysql数据库的安装及基本使用介绍。
首先需要在ODBC理中添加数据源,具体设置方法大家不会的自行百度。
通过【数据】下的【从其他源】中的从ODBC,选择已经添加好的数据源,此时就可以成功的从该数据源中加载到数据,如下图所示。
四、从网页导入
在我们日常的工作中,还有一些场景是我们需要从网页获取一些数据进行分析(也就是我们常说的网抓),对有比较简单的网抓,我们完全可以通过power query来实现。
比如如下的双色球开奖网页,我们想要获取开奖结果的表格。
我们可以通过【数据】下的【新建查询】中的【从其他源】下的【自网站】,power query就能解析出网页中的内容,如下图,直接选择表格导入数据即可。
导入后效果如下图。
以上是数据导入的一些基本操作,在之后的内容中,我还会给大家讲解power query中的M语言,当学习了M语言后,我们还可以对数据的导入通过M进行一些更有针对性的操作,请大家继续关注。
如果需要获取我文章中的示例文件及数据,请关注我后私信【bi数据导入】免费获取。