大数据最大的问题:数据清理太花时间
诗书塞外 Python程序员
大数据能够给商业带来不菲的价值,大多数公司都意识到了这一点。随着近年来大数据领域的迅猛发展,数据分析的软件以及解决方案已经非常丰富了。但是在应用大数据的过程中,另外一个问题却十分棘手:我们如何把我们的数据放到分析软件中?
这个问题是有数据依据的,根据专业的第三方机构的研究,公司往往花费50%到90%的时间在数据清理及数据准备上,只有28%的公司确信自己整理的数据是有切实意义的。
这意味着很多专业的数据人士目前工作的很大比例都在做一些“不太专业的工作”,这大大限制了大数据技术的应用。尤其是随着获取数据的工具越来越方便(网络工具越来越健全),更加突出了清理数据麻烦这个困境。
由此,我们可以预测一些可能的解决方案。
大数据分析软件更加完善
不过老实说,虽然大数据软件一直在进步,不过实在看不出来在数据清理方面它能有什么突破性的改进。