天天看點

Java記憶體映射,上G大檔案輕松處理(1)

記憶體映射檔案(Memory-mapped File),指的是将一段虛拟記憶體逐位元組映射于一個檔案,使得應用程式處理檔案如同通路主記憶體(但在真正使用到這些資料前卻不會消耗實體記憶體,也不會有讀寫磁盤的操作),這要比直接檔案讀寫快幾個數量級。

稍微解釋一下虛拟記憶體(很明顯,不是實體記憶體),它是計算機系統記憶體管理的一種技術。像施了妖法一樣使得應用程式認為它擁有連續的可用的記憶體,實際上呢,它通常是被分隔成多個實體記憶體的碎片,還有部分暫時存儲在外部磁盤存儲器上,在需要時進行資料交換。

記憶體映射檔案主要的用處是增加 I/O 性能,特别是針對大檔案。對于小檔案,記憶體映射檔案反而會導緻碎片空間的浪費,因為記憶體映射總是要對齊頁邊界,最小機關是 4 KiB,一個 5 KiB 的檔案将會映射占用 8 KiB 記憶體,也就會浪費 3 KiB 記憶體。

java.nio 包使得記憶體映射變得非常簡單,其中的核心類叫做 MappedByteBuffer,字面意思為映射的位元組緩沖區。

01、使用 MappedByteBuffer 讀取檔案

假設現在有一個檔案,名叫 cmower.txt,裡面的内容是:

沉默王二,一個有趣的程式員

PS:哎,改不了王婆賣瓜自賣自誇這個臭毛病了,因為文章被盜得都怕了。

這個檔案放在 /resource 目錄下,我們可以通過下面的方法擷取到它:

ClassLoader classLoader = Cmower.class.getClassLoader();

Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());

1

2

Path 既可以表示一個目錄,也可以表示一個檔案,就像 File 那樣——當然了,Path 是用來取代 File 的。

然後,從檔案中擷取一個 channel(通道,對磁盤檔案的一種抽象)。

FileChannel fileChannel = FileChannel.open(path);

緊接着,調用 FileChannel 類的 map 方法從 channel 中擷取 MappedByteBuffer,此類擴充了 ByteBuffer——提供了一些記憶體映射檔案的基本操作方法。

MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);

稍微解釋一下 map 方法的三個參數。

1)mode 為檔案映射模式,分為三種:

MapMode.READ_ONLY(隻讀),任何試圖修改緩沖區的操作将導緻抛出 ReadOnlyBufferException 異常。

MapMode.READ_WRITE(讀/寫),任何對緩沖區的更改都會在某個時刻寫入檔案中。需要注意的是,其他映射同一個檔案的程式可能不能立即看到這些修改,多個程式同時進行檔案映射的行為依賴于作業系統。

MapMode.PRIVATE(私有), 對緩沖區的更改不會被寫入到該檔案,任何修改對這個緩沖區來說都是私有的。

2)position 為檔案映射時的起始位置。

3)size 為要映射的區域的大小,必須是非負數,不得大于Integer.MAX_VALUE。

一旦把檔案映射到記憶體緩沖區,我們就可以把裡面的資料讀入到 CharBuffer 中并列印出來。具體的代碼示例如下。

CharBuffer charBuffer = null;

try (FileChannel fileChannel = FileChannel.open(path)) {

   MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());

   if (mappedByteBuffer != null) {

       charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);

   }

   System.out.println(charBuffer.toString());

} catch (IOException e) {

   e.printStackTrace();

}

由于 decode() 方法的參數是 MappedByteBuffer,這就意味着我們是從記憶體中而不是磁盤中讀入的檔案内容,是以速度會非常快。

02、使用 MappedByteBuffer 寫入檔案

假設現在要把下面的内容寫入到一個檔案,名叫 cmower1.txt。

沉默王二,《Web全棧開發進階之路》作者

這個檔案還沒有建立,計劃放在項目的 classpath 目錄下。

Path path = Paths.get("cmower1.txt");

具體位置見下圖所示。

Java記憶體映射,上G大檔案輕松處理(1)

然後,建立檔案的通道。

FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,

               StandardOpenOption.TRUNCATE_EXISTING)

仍然使用的 open 方法,不過增加了 3 個參數,前 2 個很好了解,表示檔案可讀(READ)、可寫(WRITE);第 3 個參數 TRUNCATE_EXISTING 的意思是如果檔案已經存在,并且檔案已經打開将要進行 WRITE 操作,則其長度被截斷為 0。

緊接着,仍然調用 FileChannel 類的 map 方法從 channel 中擷取 MappedByteBuffer。

MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);

這一次,我們把模式調整為 MapMode.READ_WRITE,并且指定檔案大小為 1024,即 1KB 的大小。然後使用 MappedByteBuffer 中的 put() 方法将 CharBuffer 的内容儲存到檔案中。具體的代碼示例如下。

CharBuffer charBuffer = CharBuffer.wrap("沉默王二,《Web全棧開發進階之路》作者");
Path path = Paths.get("cmower1.txt");
try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
        StandardOpenOption.TRUNCATE_EXISTING)) {
    MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
    if (mappedByteBuffer != null) {
        mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
    }
} catch (IOException e) {
    e.printStackTrace();
}      

可以打開 cmower1.txt 檢視一下内容,确認預期的内容有沒有寫入成功。