HDFS 對寫入的資料計算校驗和
datanode 管線的最後一個datanode 負責驗證校驗和
用戶端在讀取datanode的時候也會驗證校驗和
Hadoop的LocalFilesystem執行用戶端校驗和驗證
LocalFileSystem通過ChecksumFileSystem來完成自己的任務
FileSystem rawFs =...
FileSystem checksummedFs = new ChecksumFileSystem(rawFs);
壓縮 解壓縮 在Hadoop中 一個compressionCodec接口的實作代表一個codec codec實作一種壓縮-解壓縮算法
序列化是将結構化對像轉化為位元組流,以便在網絡上傳輸或者寫到磁盤進行永久性存儲,反序列化是指将位元組流裝回結構化對象的逆過程。序列化在分布式資料處理的程序通信和永久存儲中用到。
Hadoop的序列化格式是Writable,它格式緊湊,速度快。
Writable接口定義了兩個方法,一個将其狀态寫到DataOutput二進制流,另一個從DataInput二進制流讀取其狀态:
package org.apache.hadoop.io
import java.io.DataOutput
import java.io.DataInput
import java.io.IOException
public interface Writable{
void write(DataOutput out) throws IOException;
void readFields(DataInput in) throws IOException;
}