本章重点探讨了一些乏味但是很重要的工作,这些工作我们可能每天都要完成。对于每个数据科学项目而言,数据导入一定是第一步,因此要掌握数据分析就应该从如何有效地将数据导入到r会话中开始。
但是某种程度上,有效是个很含糊的概念:从技术角度出发,数据装载应该快速以免浪费我们的时间,但同时花几个小时来编程以提高导入的效率也不是那么重要。
本章还对读取文本文件,与数据库系统交互,在r中查询数据子集等问题给出了一些通用的解决方案。读者应掌握当下最流行的几种数据库系统的处理方法,学会选择最适合自己项目的数据库产品,并进行测试,就像我们之前所做的一样。
下一章,我们将更进一步地对这个问题展开探讨,我们将通过从web和各类api中获取数据的样例对问题进行说明,使读者能够掌握在项目中应用公开数据的方法,即便你还没有获得相应的二进制数据文件或数据库后台。