天天看點

hadoop

一、大資料:   

    世界的本質就是資料,大資料将開啟一次重大的時代轉型;大資料發展的核心動力來源于人類測量、記錄和分析世界的渴望。從因果關系到相關關系的思維變革是大資料的關鍵,建立在相關關系分析法基礎上的預測才是大資料的核心。

    如今,一個大規模生産、分享和應用資料的時代正在開啟。大資料的真實價值就像漂浮在海洋中的冰山,第一眼隻能看到冰山的一角,絕大部分都被隐藏在表面之下。而發掘資料價值、征服資料海洋的動力就是雲計算。網際網路時代,尤其是社交網絡、電子商務與移動通信把人類社會帶入了一個PB(1024TB)為機關的結構與非結構資料資訊的新時代。

    在人類曆史長河中,即使是在現代社會日新月異的發展中,人們還主要是依賴抽樣資料、

局部資料和片面資料,甚至在無法獲得實證資料的時候純粹依賴經驗、理論、假設和價值觀去

發現未知領域的規律。是以,人們對世界的認識往往是表面的、膚淺的、簡單的、扭曲的或者

是無知的。維克托指出,大資料時代的來臨使人類第一次有機會和條件,在非常多的領域和非

常深入的層次獲得和使用全面資料、完整資料和系統資料,深入探索現實世界的規律,擷取過

去不可能擷取的知識,得到過去無法企及的商機。

大資料的出現,使得通過資料分析獲得知識、商機和社會服務的能力從以往局限于少數象

牙塔之中的學術精英圈子擴大到了普通的機構、企業和政府部門。門檻的降低直接導緻了資料

的容錯率提高和成本的降低,但正如維克托所強調的,最重要的是人們可以在很大程度上從對

于因果關系的追求中解脫出來,轉而将注意力放在相關關系的發現和使用上。隻要發現了兩個

現象之間存在的顯著相關性,就可以創造巨大的經濟或社會效益,而弄清二者為什麼相關可以

留待學者們慢慢研究。大資料之是以可能成為一個 “ 時代 ” ,在很大程度上是因為這是一個可以

由社會各界廣泛參與,八面出擊,處處結果的社會運動,而不僅僅是少數專家學者的研究對

象。

    大資料将逐漸成為現代社會基礎設施的一部分,就像公路、鐵路、港口、水電和通信網絡

一樣不可或缺。但就其價值特性而言,大資料卻和這些實體化的基礎設施不同,不會因為人們

的使用而折舊和貶值。例如,一組 DNA 可能會死亡或毀滅,但資料化的 DNA 卻會永存。是以,

維克托贊同許多實體學家的看法,世界的本質就是資料。是以,大資料時代的經濟學、政治

學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體

系、知識體系和生活方式。哲學史上争論不休的世界可知論和不可知論将會轉變為實證科學中

的具體問題。可知性是絕對的,無事無物不可知;不可知性是相對的,是尚未知道的意思。

    大資料是人們獲得新的認知、創造新的價值的源泉;大資料還是改變市場、組織機構,以及政府與公民關系的方法。

    就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海

量資料的新技術将幫助我們更好地了解世界 —— 這種了解世界的新方法我們現在才意識到。

     在小資料時代,我們會假想世界是怎麼運作的,然後通過收集和分析資料來驗證這種假

想。在不久的将來,我們會在大資料的指導下探索世界,不再受限于各種假想。我們的研究始

于資料,也因為資料我們發現了以前不曾發現的聯系。是以,大資料的核心就是預測。它通常被視為人工智能的一部分,或者更确切地說,被視為一種機器學習。但是這種定義是有誤導性的。大資料不是要教機器像人一樣思考。相反,它是把數學算法運用到海量的資料上來預測事情發生的可能性。

二、狹義hadoop:

    狹義的hadoop就是hadoop本身,主要處理海量離線資料的分析和存儲。

    1、HDFS:海量資料存儲。

    2、MapReduce:海量資料分析,業務算法需自己程式設計處理。

    3、YARN:負責資源排程。

三、廣義的hadoop:

    廣義的hadoop指hadoop平台,包含許多相關技術,主要處理海量離線/線上資料的分析和存儲。

    1、hadoop

    2、storm

    3、spark

    4、hive

    5、hbase

上一篇: Hadoop

繼續閱讀