天天看點

大資料最大的問題:資料清理太花時間

大資料最大的問題:資料清理太花時間

詩書塞外 Python程式員

大資料最大的問題:資料清理太花時間

大資料能夠給商業帶來不菲的價值,大多數公司都意識到了這一點。随着近年來大資料領域的迅猛發展,資料分析的軟體以及解決方案已經非常豐富了。但是在應用大資料的過程中,另外一個問題卻十分棘手:我們如何把我們的資料放到分析軟體中?

這個問題是有資料依據的,根據專業的第三方機構的研究,公司往往花費50%到90%的時間在資料清理及資料準備上,隻有28%的公司确信自己整理的資料是有切實意義的。

這意味着很多專業的資料人士目前工作的很大比例都在做一些“不太專業的工作”,這大大限制了大資料技術的應用。尤其是随着擷取資料的工具越來越友善(網絡工具越來越健全),更加突出了清理資料麻煩這個困境。

由此,我們可以預測一些可能的解決方案。

大資料分析軟體更加完善

不過老實說,雖然大資料軟體一直在進步,不過實在看不出來在資料清理方面它能有什麼突破性的改進。

資料準備員變成資料科學家的專業助手

通過AI協助清理資料