天天看點

《hadoop 權威指南》 讀書筆記

HDFS 對寫入的資料計算校驗和

datanode 管線的最後一個datanode 負責驗證校驗和

用戶端在讀取datanode的時候也會驗證校驗和

Hadoop的LocalFilesystem執行用戶端校驗和驗證

LocalFileSystem通過ChecksumFileSystem來完成自己的任務

FileSystem rawFs =...

FileSystem checksummedFs = new ChecksumFileSystem(rawFs);

壓縮 解壓縮 在Hadoop中 一個compressionCodec接口的實作代表一個codec codec實作一種壓縮-解壓縮算法

序列化是将結構化對像轉化為位元組流,以便在網絡上傳輸或者寫到磁盤進行永久性存儲,反序列化是指将位元組流裝回結構化對象的逆過程。序列化在分布式資料處理的程序通信和永久存儲中用到。

Hadoop的序列化格式是Writable,它格式緊湊,速度快。

Writable接口定義了兩個方法,一個将其狀态寫到DataOutput二進制流,另一個從DataInput二進制流讀取其狀态:

package org.apache.hadoop.io
import java.io.DataOutput
import java.io.DataInput
import java.io.IOException

public interface Writable{
void write(DataOutput out) throws IOException;
void readFields(DataInput in) throws IOException;
}
           

繼續閱讀