大資料項目：新聞日志大資料處理系統Big-Data-Project

2023-06-24 06:11:59

Big-Data-Project

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts

項目名稱：新聞日志大資料處理系統

項目簡介

github開源

源碼：https://github.com/changeforeda/Big-Data-Project

目标

1、完成大資料項目的架構設計，安裝部署，架構繼承與開發、使用者可視化互動設計

2、完成實時線上資料分析

3、完成離線資料分析

具體功能

1）捕獲使用者浏覽日志資訊

2）實時分析前20名流量最高的新聞話題

3）實時統計目前線上已曝光的新聞話題

4）統計哪個時段使用者浏覽量最高

5）報表

項目技術點

Hadoop2.x、Zookeeper、Flume、Hive、Hbase

Kafka、Spark2.x、SparkStreaming

MySQL、Hue、J2EE、websoket、Echarts

開發工具

虛拟機： VMware、centos

虛拟機ssh: SecureCRT（在windows上連結多個虛拟機）

修改源碼：idea

檢視各種資料：notepad++（安裝NppFTP插件，修改虛拟機中配置檔案，好用的一批）

項目架構

圖檔來自于卡夫卡公司

大資料項目：新聞日志大資料處理系統Big-Data-Project

叢集資源規劃

利用VMware虛拟機+centos完成，基本要求筆記本電腦記憶體在8G以上。

最低要去克隆出3台虛拟機，每台給2G記憶體。

大資料項目：新聞日志大資料處理系統Big-Data-Project

項目實作步驟

1、第一章：項目需求分析與設計

2、第二章：linux環境準備與設定

3、第三章：Hadoop2.X分布式叢集部署

4、第四章：Zookeeper分布式叢集部署

5、第五章：hadoop的高可用配置（HA）

6、第六章：hadoop的HA下的高可用HBase部署

7、第七章：Kafka簡介和分布式部署

8、第八章：Flume簡介和分布式部署

9、第九章：Flume源碼修改與HBase+Kafka內建

10、第十章：Flume+HBase+Kafka內建全流程測試

11、第十一章：mysql、Hive安裝與內建

12、第十二章：Hive與Hbase內建

13、第十三章：Cloudera HUE大資料可視化分析

14、第十四章：Spark2.X叢集安裝與spark on yarn部署

15、第十五章：基于IDEA環境下的Spark2.X程式開發

16、第十六章：Spark Streaming實時資料處理

大資料項目：新聞日志大資料處理系統Big-Data-Project

Big-Data-Project

項目名稱：新聞日志大資料處理系統

項目簡介

項目技術點

開發工具

項目架構

叢集資源規劃

項目實作步驟

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark