天天看點

大資料 雲計算 等搜集的資料

雲計算和大資料

http://www.cstor.cn/textdetail_6067.html

大資料 雲計算 等搜集的資料

http://wenku.baidu.com/link?url=kscWHrJRhI2PdBscQvBmTJTcNcUQpNIk8xFXlkNKWnnTtRLmYPPLBAV4Gp5CmP-H1bQcrCIoxkdSP3XnC3xkDoGWDFyy1R9gJkD9EuyF47q

大資料和雲計算兩者的差別

http://www.csdn.net/article/2015-09-11/2825674 盤點大資料生态圈,那些繁花似錦的開源項目

雲存儲技術

開源的分布式檔案存諸系統有GlusterFS、Hadoop 、FastDFS 等等非常多

Tachyon http://www.csdn.net/article/2015-06-25/2825056

Ceph與Swift

Ceph用C++編寫而Swift用Python編寫,性能上應當是Ceph占優。但是與Ceph不同,Swift專注于對象存儲,作為OpenStack元件之一經過大量生産實踐的驗證,與OpenStack結合很好,目前不少人使用Ceph為OpenStack提供塊存儲,但仍舊使用Swift提供對象存儲。

Swift的開發者曾寫過文章對比Ceph和Swift: Ceph and Swift: Why we are not fighting.

Ceph與HDFS

Ceph對比HDFS優勢在于易擴充,無單點。HDFS是專門為Hadoop這樣的雲計算而生,在離線批量處理大資料上有先天的優勢,而Ceph是一個通用的實時存儲系統。雖然Hadoop可以利用Ceph作為存儲後端(根據Ceph官方的教程死活整合不了,自己寫了個簡潔的步驟Running-Hadoop-on-CEPH),但執行計算任務上性能還是略遜于HDFS(時間上慢30%左右 Haceph: Scalable Meta- data Management for Hadoop using Ceph)。

http://www.chinaz.com/program/2015/0504/403143.shtml 曆經十年:關于Ceph現狀與未來的一些思考

http://www.oschina.net/project/tag/104/storage 不同類别的存儲系統開源項目

Hadoop生态系統

http://blog.csdn.net/woshiwanxin102213/article/details/19688393

Hadoop是一個能夠對大量資料進行分布式處理的軟體架構。具有可靠、高效、可伸縮的特點。

Hadoop的核心是HDFS和Mapreduce,hadoop2.0還包括YARN。

下圖為hadoop的生态系統:

大資料 雲計算 等搜集的資料

Spark / Storm

http://www.zhihu.com/question/26568496

http://developer.51cto.com/art/201412/460116.htm

Spark基于這樣的理念,當資料龐大時,把計算過程傳遞給資料要比把資料傳遞給計算過程要更富效率。每個節點存儲(或緩存)它的資料集,然後任務被送出給節點。是以這是把過程傳遞給資料。這和Hadoop map/reduce非常相似,除了積極使用記憶體來避免I/O操作,以使得疊代算法(前一步計算輸出是下一步計算的輸入)性能更高。Shark隻是一個基于Spark的查詢引擎(支援ad-hoc臨時性的分析查詢)

而Storm的架構和Spark截然相反。Storm是一個分布式流計算引擎。每個節點實作一個基本的計算過程,而資料項在互相連接配接的網絡節點中流進流出。和Spark相反,這個是把資料傳遞給過程。

兩個架構都用于處理大量資料的并行計算。

Storm在動态處理大量生成的“小資料塊”上要更好(比如在Twitter資料流上實時計算一些彙聚功能或分析)。

Spark工作于現有的資料全集(如Hadoop資料)已經被導入Spark叢集,Spark基于in-memory管理可以進行快訊掃描,并最小化疊代算法的全局I/O操作。

http://blog.csdn.net/hguisu/article/details/8454368 使用Storm實作實時大資料分析

大資料的生态系統

http://www.csdn.net/article/2012-12-21/2813066-database-road-map 一張圖讓你知道大資料的生态系統

http://www.aboutyun.com/thread-11944-1-1.html 開源大資料(hadoop生态系統、流式處理系統等)處理工具彙總

開源雲

http://www.oschina.net/news/54700/most-popular-opensource-cloud-projects 2014 上半年最受歡迎的開源雲項目集合

http://www.chinacloud.cn/show.aspx?id=19743&cid=22 盤點Linux下的開源雲平台

OpenStack Docker KVM

實時資料流處理

http://www.csdn.net/article/2014-06-12/2820196-Storm 實時計算,流資料處理系統簡介與簡單分析

http://www.csdn.net/article/2014-12-09/2823038 在雲上搭建大規模實時資料流處理系統

http://tech.it168.com/a2014/0730/1651/000001651470_all.shtml LinkedIn大資料專家深度解讀日志的意義

Appendix

http://storm.apache.org/

http://spark.apache.org/

http://hadoop.apache.org/

https://en.wikipedia.org/wiki/NoSQL

http://docs.openstack.org/developer/swift/

http://wiki.apache.org/hadoop/HDFS

http://ceph.com/