天天看点

bcache 状态/配置 文件详细介绍(翻译自官网)

声明:

  • 文中 斜体带下划线  的段落为翻译不够准确的段落
  • 原文:https://www.kernel.org/doc/Documentation/bcache.txt
  • 官网:https://bcache.evilpiepirate.org/

什么是bcache

  bcache是linux内核块层cache.它使用类似SSD来作为HDD硬盘的cache,从而起到加速作用。 HDD硬盘便宜并且空间更大,SSD速度快但更贵。如果能两者兼得,岂不快哉?bcache能做到。

  bcache使用SSD作为其他块设备cache.类似ZFS的L2Arc,但bcache还增加了写回策略,并且是与文件系统无关的。bcache被设计成只需要最小的代价,无需配置就能在所有环境中工作。默认状态下bcache不缓存顺序IO,只缓存随机读写。

  bcache适用于桌面、服务器,高级存储阵列,甚至是嵌入式环境。设计bcache目标是让被缓存设备与SSD一样快(包括缓存命中、缓存不命中、透写和回写)。现在还未达到初衷,特别是顺序写。同时测试结果表明离目标很接近,甚至有些情况下表现更好,例如随机写。

  bcache是数据安全的。对于写回策略缓存来说,可靠性是非常重要的,出错就意味着丢失数据。bcache是用电池备份阵列控制器的替代选择,同时也要求bcache在异常掉电时也是数据安全的。对于写而言,必须在所有数据写到可靠介质之后才能向上层返回写成功。如果在写一个大文件时掉电了,则写入是失败的。异常掉电数据安全是指 cache 中的脏数据是不会丢的,不像内存中的脏数据掉电就没了。

  bcache性能设计目标是等同于SSD.最大程度上去最小化写放大,并避免随机写。bcache将随机写转换为顺序写,首先写到SSD,然后回写缓存使用SSD缓存大量的写,最后将写有序写到磁盘或者阵列上。对于RAID6阵列,随机写性能很差,还要花费不菲的价格购买带有电池保护的阵列控制器。现在有了bcache,你就可以直接使用linux自带的优秀软RAID,甚至可以在更廉价的硬件上获取更高的随机写性能。

特性:

1、一个缓存设备可以作为多个设备的缓存,并且可以在设备运行时动态添加和删除缓存。

2、只有当写到磁盘后缓存才会确认写完成。

3、正确处理写阻塞和刷缓存

4、支持writethrough, writeback和writearound

5、检测并避开顺序IO(可配置关闭该选项)

6、当检测到SSD延迟超过配置边界值,减少到SSD流量(当一个SSD作为多个磁盘缓存时使用)

7、缓存不命中时预读(默认关闭)

8、高性能的 writeback 实现:脏数据都是排序后再回写。如果设置了 writeback 水位线,PD控制器会根据脏数据比例来平滑处理到后台writeback流量。

9、使用高效率的 B+树,bcache随机读可以达到1M IOPS

10、稳定

安装

参考文档

调优

1.Bcache 有一堆配置选项和可调参数,默认参数对于典型的桌面和服务器工作负载是合理的,但是,当您在基准测试时,它们不是你想要获得最佳参数

- Backing device 对齐

bcache中的默认(metadata)元数据大小为8k.如果你的 Backing device 是基于 RAID 的,那么请务必使用`make-bcache --data-offset`将其与你的 RAID 条带大小对齐(即设置为 raid 条带大小的倍数)。--可避免写放大

如果考虑未来RAID的扩展,则建议这样计算data-offset的值

   For example:  If you have a 64k stripe size, then the following offset

   would provide alignment for many common RAID5 data spindle counts:

    64k * 2*2*2*3*3*5*7 bytes = 161280k

   That space is wasted, but for only 157.5MB you can grow your RAID 5

   volume to the following data-spindle counts without re-aligning:

    3,4,5,6,7,8,9,10,12,14,15,18,20,21 ...

- 写入性能差

默认 bcache 的 cache_mode 是 writeround,改成 writeback,提高写入性能

echo writeback > /sys/block/bcache0/bcache/cache_mode

2.默认情况下,bcache不会缓存所有内容.它尝试跳过顺序的IO,因为你确实想要缓存随机的IO。

如果你复制一个10 GB的文件,你可能也不希望将 cache 中 10 GB 的随机访问数据从缓存中刷新走(cache 可用空间不够时,根据 lru 算法将冷数据回写到 backing device)。 

例如:如果要对缓存进行基准读取测试,使用 fio 设置一个8 GB的测试文件,你需要禁用它:

echo 0 > /sys/block/bcache0/bcache/sequential_cutoff

调整 backing 设备的连续 IO 阈值,表示 bcache0 设备的连续 IO 大于 4MB 时,大于 4MB 的部分不会走 SSD 设备,也不会缓存到 ssd,而是直接读写 backing 设备。(default:4M)

echo 4M > /sys/block/bcache0/bcache/sequential_cutoff

3. 如何防止 cache 设备成为瓶颈

bcache会跟踪每个IO,如果IO的时间超过阈值,则旁路cache设备,直接读写backing设备。

如果你的SSD足够强大,可以不跟踪,减少跟踪的开销。

   # echo 0 > /sys/fs/bcache/<cache set uuid>/congested_read_threshold_us

   # echo 0 > /sys/fs/bcache/<cache set uuid>/congested_write_threshold_us

关闭旁路的另一个好处是,所有的离散读写都会经过cache设备,从而不会导致cache missing。

默认情况下当读请求超过2ms,写请求超过20ms时,旁路cache设备。

   The default is 2000 us (2 milliseconds) for reads, and 20000 for writes. 

错误处理

Bcache尝试透明地处理来自缓存设备的 IO 错误,而不会影响正常操作;如果它看到太多错误(阈值可配置,并且默认为0),它将关闭缓存设备并将所有  backing device 切换到 writethrough 模式。

  • 对于从缓存读取,如果它们出现错误,将从 backing device 重新尝试读取
  • 对于 writethroungh writes,如果写入缓存错误,我们只需切换到缓存中的 lba(Logical Block Address, LBA) 上使数据无效(即我们为绕过 cache write 做同样的事情)
  • For writethrough writes, if the write to the cache errors we just switch to invalidating the data at that lba in the cache (i.e. the same thing we do for a write that bypasses the cache)
  • 对于 writeback writes,我们目前将该错误传递给文件系统/用户空间。这可以改进 - 我们可以尝试绕过缓存的写入,所以可心避免写入错误。
  • 对于分离操作,我们首先尝试刷新任何脏数据(如果我们以 writeback 模式运行)。但是,如果它无法读取脏数据,它将不会做任何操作。

BACKING DEVICE

实际设备目录: /sys/block/<bdev>/bcache

以下目录软链接到实际设备目录:

/sys/block/bcache*/bcache

/sys/fs/bcache/<cset-uuid>/bdev*

attach

echo <cset-uuid> 到此文件将缓存设备连接到后端设备

cache_mode

可以是writethrough,writeback,writearound或none之一

clear_stats

写入此文件将重置正在运行的总(total)统计信息(不是 day/hour/5minute)

detach

写入此文件将从缓存集中分离.如果缓存中有脏数据,则会先刷新

dirty_data

缓存中此 backing device 的脏数据量, cache 设置的版本不断更新,但可能会稍微偏离

label

底层设备名称

readahead

应该执行的readahead的大小,默认为0.如果设置为1M,它会将cache未命中的数据读取到 1M,但是没有重叠现有的缓存条目

running

echo 1 可强制 bcache 在无 cache 的情况下运行

sequential_cutoff

一旦连续的 IO 大小越过此阈值,它将绕过缓存;最近的128个IO被跟踪,因此即使没有一次完成,也可以检测到连续的IO (default:4M)

sequential_merge

如果非零,bcache将提交的最后128个请求的列表与所有新请求进行比较,以确定哪些新请求是先前请求的顺序连续,以确定顺序截止.如果顺序截止值大于任何单个请求的最大可接受顺序大小,则这是必需的

state

backing device 可以处于四种不同状态之一:

  • no cache:从未附加到缓存集。
  • clean:部分缓存集,且 cache 没有脏数据。
  • dirty:部分缓存集,且 cache 有脏数据。
  • inconsistent:backing device 被用户强制运行后 cache 中存在脏数据但缓存集不可用时;backing device 上的任何数据可能已损坏

stop

写入此文件以关闭 bcache 设备并关闭 backing device

writeback_delay

当脏数据被写入 cache 并且之前没有包含任何数据时,在启动回写之前等待几秒钟。默认为30。

writeback_percent

bcache 试图保持这个百分比的 cache 脏数据,并通过调节 writeback 及使用 PD 控制器来平滑调整速率 (default:10)

writeback_rate

每秒多少扇区的速度 - 如果 writeback_percent 不为0,则回写被限制到指定速度。

由 bcache 连续调整,但也可由用户设置

writeback_running

如果关闭,则不会发生脏数据的回写,脏数据仍将被添加到缓存中,直到其将要满时.仅用于基准测试。默认开启 (default: on [on:1,off:0])

BACKING DEVICE 状态统计:

实际设备目录下有状态总计目录(stats_total),以及一天(stats_day),1小时(stats_hour)和5分钟(stats_five_minute)共四个目录,其中目录中的文件含义分别如下:

bypassed

绕过缓存的 IO (读取和写入)量

cache_hits

cache_misses

cache_hit_ratio

在 bcache 来看,hit 和 miss 根据每个 IO 来计数,部分 hit 会被计为 miss

cache_bypass_hits

cache_bypass_misses

绕过缓存的 IO 的 hit 和 miss 的计数

cache_miss_collisions

cache miss 插入 cache 的实例计数,但是随着写入和数据已经存在(通常为0,因为 cache miss 的同步被重写)

原文:

Counts instances where data was going to be inserted into the cache from a cache miss, but raced with a write and data was already present (usually 0 since the synchronization for cache misses was rewritten)

cache_readaheads

预读次数的计数

CACHE SET:

所在目录:/sys/fs/bcache/<cset-uuid>

average_key_size        # todo

btree中每个键的平均大小

bdev<0..n>

link 到每个附加的 backing device

ls -lrth 的结果

bdev0 -> ../../../devices/pci0000:00/0000:00:02.2/0000:04:00.0/host0/port-0:0/expander-0:0/port-0:0:6/end_device-0:0:6/target0:0:6/0:0:6:0/block/sdg/bcache      

block_size 

缓存设备的块大小

btree_cache_size

btree 缓存当前使用的内存量

bucket_size

buckets 大小

cache<0..n>

link 到 cache device 的真实设备

cache0 -> ../../../devices/pci0000:00/0000:00:02.2/0000:04:00.0/host0/port-0:0/expander-0:0/port-0:0:5/end_device-0:0:5/target0:0:5/0:0:5:0/block/sdf/bcache      

cache_available_percent

不包含脏数据的缓存设备的百分比,并且可能被用于回写。这并不意味着这个空间不用于清理缓存的数据;未使用的统计信息(在priority_stats中)通常要低得多。

清除与此高速缓存关联的统计信息

在缓存中脏数据的量(在垃圾回收(gc)运行时将更新)

flash_vol_create

echo 一个大小到这个文件,(以人类可读的单位,k/M/G)创建一个由缓存集支持的精简卷

io_error_halflife

io_error_limit

这些决定了在禁用缓存之前接受的错误数量,每个错误都会在半衰期之后衰减(在#ios中),如果衰减计数达到 io_error_limit,则会写出脏数据,并禁用缓存

journal_delay_ms

日志写入延迟几毫秒,除非缓存刷新发生得更早。默认值为100

root_usage_percent

正在使用的 root btree节点的百分比,如果这太高,节点会分裂,增加树的深度。(default:2)

写入此文件以关闭缓存集,等待直到所有连接的后备设备都已关闭

tree_depth

btree的深度(单节点btree的深度为0)(default:1)

unregister

分离所有 backing device 并关闭缓存设备,如果存在脏数据,它将禁用回写式缓存并等待它被刷新

CACHE SET INTERNAL

所在目录:/sys/fs/bcache/<cset-uuid>/internal/

此目录也暴露出大量的内部操作的计时,具有平均持续时间,平均频率,最后一个匹配项和最大持续时间:垃圾收集,btree读取,btree节点排序和btree分割

This directory also exposes timings for a number of internal operations, with separate files for average duration, average frequency, last occurrence and max duration: garbage collection, btree read, btree node sorts and btree splits.

active_journal_entries

比索引新的日志条目的数目

btree_nodes

btree中的总节点

btree_used_percent

btree在使用中的平均值

bset_tree_stats

关于辅助搜索树的统计

btree_cache_max_chain

btree节点缓存的哈希表中最长的链

cache_read_races

计数在从缓存读取数据的情况下,桶被重用和无效 - 即在读取完成后指针过期。发生这种情况时,数据将从后备设备重新读取

trigger_gc

写入此文件将强制运行垃圾回收

CACHE DEVICE:

<cdev>=cache设备的真实设备名

所在目录: /sys/block/<cdev>/bcache

block_size

写入的最小粒度应符合硬件扇区大小

btree_written

所有btree写入的总和,(千/兆/千兆)字节

bucket 大小

cache_replacement_policy

cache 刷新策略,lru,fifo或random

discard

存储SSD TRIM 开关的开启与关闭状态

  • 延伸知识:在SSD上使用TRIM,默认是不开启的 (固态硬盘(SSD)为什么需要TRIM?,TRIM 的解释查看参考资料 Trim)

freelist_percent        # 人为减小可以缓存的数据量

空闲cache的大小占总数的百分比。可以写入来增加freelist上保存的 bucket 数,这样可以在运行时人为地减小缓存的大小。主要用于测试目的(即测试不同大小的缓存如何影响您的命中率),但是由于在移动到freelist之后丢弃了 bucket,因此也可以通过有效地给予更多的保留空间来使SSD的垃圾回收更容易。

io_errors

发生的错误数量,由 io_error_halflife 衰减

metadata_written

所有非数据写入(btree写入和所有其他元数据)的总和

nbuckets

此缓存中的总桶数

priority_stats

关于缓存中最近的数据被访问的统计信息。这可以显示您的工作集大小。

  • Unused:是不包含任何数据的缓存的百分比
  • Metadata:是bcache的元数据占的百分比
  • Average:是 cache buckets 的平均优先级。
  • Quantiles:是每个具有优先级阈值的分位数的列表
  • a list of quantiles with the priority threshold of each

written

已写入高速缓存的所有数据的总和;与btree_written的比较获得 bcache 实际的写入增量