天天看點

hadoop深入了解(一)

學習hadoop目标

安裝資料連結: http://pan.baidu.com/s/1bnfkl9H 密碼: fmb8

1、掌握Hadoop基本知識,進行Hadoop的HDFS和MapReduce應用開發,搭建Hadoop叢集。

2、掌握Hbase基本知識,搭建Hbase叢集,Hbase的基本操作

3、掌握資料倉庫基本知識,用Hive建立資料倉庫,并進行多元分析

一、初識hadoop

hadoop深入了解(一)

hadoop是有兩個核心組成。這也就是hadoop作為分布式存儲和計算的功能展現。HDFS用來存儲檔案。mapreduce用來計算。

HDFS主從結構

主節點,隻有一個: namenode

從節點,有很多個: datanodes

namenode負責: 接收使用者操作請求

        維護檔案系統的目錄結構 管理檔案與block之間關系,block與datanode之間關系

datanode負責: 存儲檔案

        檔案被分成block存儲在磁盤上 為保證資料安全,檔案會有多個副本

Mapreduce主從結構

主節點,隻有一個: JobTracker 從節點,有很多個: TaskTrackers

JobTracker負責: 接收客戶送出的計算任務 把計算任務分給TaskTrackers執行 監控TaskTracker的執行情況

TaskTrackers負責: 執行JobTracker配置設定的計算任務

sqoop作用

RDBMS和非關系型資料庫的轉換。

HIVE 是high level interface 支援SQL語句很強大

pig支援一步一步的執行

Hbase處理OLTP線上事務處理應用,特點是低延遲。

mahout 封裝了很多的資料挖掘算法。

hadoop深入了解(一)

Jobtacker和namebode就像是兩個部門的經理(隻有一個)分别管理計算和存儲,兩個部門分屬兩個機架。通過交換機連接配接

tasktracker和databode像是兩個部門的多個職員。

下面在介紹hadoop安裝之前了解三種網絡連接配接方式

虛拟機的作用是在現有作業系統下,允許安裝更多的作業系統,互相之間實體隔離,組成網絡,可以更大的發揮計算機的性能。

VirtualBox作為一款免費的虛拟機,非常好用。與之類似的,還有VMWare,這也是一款非常非常好用的虛拟機,操作也非常類似。我們依次為例,講述VBox下的各種網絡連接配接方式。

為什麼要講這個哪?因為在教學中,發現很多學員對網絡知識比較缺乏,對各種網絡連接配接方式哪,知之甚少。現在總結一下,希望來個根本解決。

首先,大家知道一下網絡常識:

  • 網絡中對電腦的通路是通過ip定位的。就好像我們的身份證号,可以唯一辨識一個人。ip是用來區分網絡中的電腦的,是以同一網絡(準确講是“網段”)中,ip位址不能相同。如果同一網絡中有相同的ip存在,經常發生無法聯網或者經常掉線的情況。
  • 網絡是分段管理的。拿區域網路為例,我們通常的網段是192.168.1.xxx。我們的ip位址就是把xxx成1到254的數字。如果多台計算機的ip的前面數字都是192.168.1,那麼就叫做屬于同一個網段,他們之間是可以互相通信的。如果一台機器的ip是192.168.1.100,另一台機器的ip是192.168.3.100,正常情況下,不能互相通信的(有辦法可以搞定,我們不讨論)。是以,在設定虛拟機時要考慮是否同一個網段。
  • 怎麼知道電腦的ip位址?在windows系統下,在指令行中執行ipconfig;在linux系統下,在指令行中執行ifconfig即可,下文會詳述。
  • 怎麼判斷是否與對方能夠通信?最簡單的方式是執行ping指令。無論是windows還是linux,都可以在指令行中執行“ping 對方ip”

  1、host-only 主控端和客戶機單獨組網。網段不同。是以不能通信,相對安全。

更改網絡中的虛拟機擴充卡

  2、bridge 橋接同一區域網路。不安全

      3、NAT 主控端看不到客戶機的ip

這種通路模式指的是虛拟機不占用主機所在區域網路的ip,通過使用主機的NAT功能通路區域網路和網際網路,意味着虛拟機可以通路區域網路中的其他電腦,但是其他電腦不知道虛拟機的存在。

使用這種模式時,虛拟機不需要設定靜态IP,隻需要使用DHCP功能自動擷取ip即可。

這種模式的好處是可以利用主機的網卡上網,而且不占用更多的ip位址。在ip v4緊張的年代,發明了NAT,是以絕大多數上網都是這種方式。

 安裝前的軟體準備

VitualVox

rhel-server-6.3-i386-dvd.iso

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

安裝步驟

關閉防火牆

修改ip

修改hostname

設定ssh自動登入

安裝jdk 安裝hadoop

轉載于:https://www.cnblogs.com/dandandeyoushangnan/p/4698561.html