天天看點

潤乾蔣步星 | 非結構化資料分析技術是忽悠

潤乾蔣步星 | 非結構化資料分析技術是忽悠

大資料概念興起的同時也帶熱了非結構化資料分析。傳說一個企業中80%的資料都是非結構化資料,如果按占據空間來算,這個比例大體不假,畢竟音視訊這類資料真地很大。

有這麼大的資料量,需要進行分析是很自然的事了,而要分析當然就要有相應的技術手段了。

那為什麼說非結構化資料分析技術是忽悠呢?

非結構化資料五花八門,有聲音圖像、文本網頁、辦公文檔、裝置日志、….;每類資料的都有各自的計算處理手段,比如語音識别、圖像比對、文本搜尋、圖結構計算等等,但是并不存在一種适用于所有非結構化資料的通用計算技術。

語音識别的方法不能用于圖像比對、文本搜尋和圖結構計算也扯不上關系。

一個廠商如果擅長某種技術,那一定會直接宣稱自己專業于該領域,而不會泛泛地說自己精于非結構化資料分析。

比如人臉識别做得非常精準、或是文本敏感詞挖掘的專業公司,顯然這樣更容易定位使用者和應用場景。

如果一家公司隻說自己擅長非結構化資料分析而不指明具體的領域,那就不知道到底能做些什麼了。

雖然許多專業技術領域都可以歸類為對非結構化資料的處理,但總體應用範圍并不廣泛,大多數使用者還用不上這些專門技術,而隻是需要把這些資料存儲下來。

非結構化資料沒有通用的分析計算技術,但存儲和相應的管理(增删檢索等)是可以通用化的。

非結構化資料占據的空間較大,經常需要不同于結構化資料的特殊存儲手段。

不過,如果不是資料量特别大,或者有高并發的檢索需求,大多數的網絡檔案系統(如hdfs)已經能夠勝任存儲和通路需求。

廠家如果隻喊能做非結構化資料的存儲和基本管理,那會顯得沒什麼技術含量。是以這些廠商會不遺餘力地往分析上靠,但沒有實質東西。

而能提供大容量高性能的通路的專業存儲廠商卻隻會喊存儲,而不會刻意提及分析。

采集非結構化資料的同時,常常會伴随着采集許多相關的結構化資料,比如音視訊的制作人、制作時間、所屬類别、時長、…;有些非結構化資料經過處理後也會轉變成結構化資料,比如網頁日志中拆解出通路人ip、通路時刻、關鍵搜尋詞等。

所謂的非結構化資料分析,經常實際上是針對這些伴生而出的結構化資料,這個領域有不少較為成熟的通用計算技術(比如關系代數和關系資料庫)。

但現在隻喊結構化資料顯得不夠時髦,為了吸引使用者,就要把本質上的結構化資料分析說成是非結構化資料分析了。

作為需求方的使用者,這時候需要清楚地知道到底要對這些資料做什麼處理。如果隻是簡單存儲,那上個hdfs這類開源網絡檔案系統就夠了;

如果有高性能通路需求,那要找專業的存儲廠商;如果其實要分析的是伴生出來的結構化資料,那就是已經熟悉的資料庫類業務了;

如果真有特定的處理需求,那也是找專門領域的廠商和技術。總之,不要泛泛地隻說需要非結構化資料分析。

來源:中生代技術

<a href="https://mp.weixin.qq.com/s/xif1to3ha9cye7wf6nhudg" target="_blank">原文連結</a>