声明：

文中斜体带下划线的段落为翻译不够准确的段落
原文：https://www.kernel.org/doc/Documentation/bcache.txt
官网：https://bcache.evilpiepirate.org/

什么是bcache

　　bcache是linux内核块层cache.它使用类似SSD来作为HDD硬盘的cache,从而起到加速作用。 HDD硬盘便宜并且空间更大，SSD速度快但更贵。如果能两者兼得，岂不快哉？bcache能做到。

　　bcache使用SSD作为其他块设备cache.类似ZFS的L2Arc,但bcache还增加了写回策略，并且是与文件系统无关的。bcache被设计成只需要最小的代价，无需配置就能在所有环境中工作。默认状态下bcache不缓存顺序IO,只缓存随机读写。

　　bcache适用于桌面、服务器，高级存储阵列，甚至是嵌入式环境。设计bcache目标是让被缓存设备与SSD一样快（包括缓存命中、缓存不命中、透写和回写）。现在还未达到初衷，特别是顺序写。同时测试结果表明离目标很接近，甚至有些情况下表现更好，例如随机写。

　　bcache是数据安全的。对于写回策略缓存来说，可靠性是非常重要的，出错就意味着丢失数据。bcache是用电池备份阵列控制器的替代选择，同时也要求bcache在异常掉电时也是数据安全的。对于写而言，必须在所有数据写到可靠介质之后才能向上层返回写成功。如果在写一个大文件时掉电了，则写入是失败的。异常掉电数据安全是指 cache 中的脏数据是不会丢的，不像内存中的脏数据掉电就没了。

　　bcache性能设计目标是等同于SSD.最大程度上去最小化写放大，并避免随机写。bcache将随机写转换为顺序写，首先写到SSD,然后回写缓存使用SSD缓存大量的写，最后将写有序写到磁盘或者阵列上。对于RAID6阵列，随机写性能很差，还要花费不菲的价格购买带有电池保护的阵列控制器。现在有了bcache,你就可以直接使用linux自带的优秀软RAID,甚至可以在更廉价的硬件上获取更高的随机写性能。

特性:

1、一个缓存设备可以作为多个设备的缓存，并且可以在设备运行时动态添加和删除缓存。

2、只有当写到磁盘后缓存才会确认写完成。

3、正确处理写阻塞和刷缓存

4、支持writethrough, writeback和writearound

5、检测并避开顺序IO（可配置关闭该选项）

6、当检测到SSD延迟超过配置边界值，减少到SSD流量（当一个SSD作为多个磁盘缓存时使用）

7、缓存不命中时预读（默认关闭）

8、高性能的 writeback 实现：脏数据都是排序后再回写。如果设置了 writeback 水位线，PD控制器会根据脏数据比例来平滑处理到后台writeback流量。

9、使用高效率的 B+树，bcache随机读可以达到1M IOPS

10、稳定

安装

参考文档

调优

1.Bcache 有一堆配置选项和可调参数,默认参数对于典型的桌面和服务器工作负载是合理的，但是，当您在基准测试时，它们不是你想要获得最佳参数

- Backing device 对齐

bcache中的默认(metadata)元数据大小为8k.如果你的 Backing device 是基于 RAID 的,那么请务必使用`make-bcache --data-offset`将其与你的 RAID 条带大小对齐(即设置为 raid 条带大小的倍数)。--可避免写放大

如果考虑未来RAID的扩展，则建议这样计算data-offset的值

For example: If you have a 64k stripe size, then the following offset

would provide alignment for many common RAID5 data spindle counts:

64k * 2*2*2*3*3*5*7 bytes = 161280k

That space is wasted, but for only 157.5MB you can grow your RAID 5

volume to the following data-spindle counts without re-aligning:

3,4,5,6,7,8,9,10,12,14,15,18,20,21 ...

- 写入性能差

默认 bcache 的 cache_mode 是 writeround,改成 writeback,提高写入性能

echo writeback > /sys/block/bcache0/bcache/cache_mode

2.默认情况下，bcache不会缓存所有内容.它尝试跳过顺序的IO，因为你确实想要缓存随机的IO。

如果你复制一个10 GB的文件，你可能也不希望将 cache 中 10 GB 的随机访问数据从缓存中刷新走(cache 可用空间不够时，根据 lru 算法将冷数据回写到 backing device）。

例如：如果要对缓存进行基准读取测试，使用 fio 设置一个8 GB的测试文件，你需要禁用它:

echo 0 > /sys/block/bcache0/bcache/sequential_cutoff

调整 backing 设备的连续 IO 阈值，表示 bcache0 设备的连续 IO 大于 4MB 时，大于 4MB 的部分不会走 SSD 设备，也不会缓存到 ssd，而是直接读写 backing 设备。(default:4M)

echo 4M > /sys/block/bcache0/bcache/sequential_cutoff

3. 如何防止 cache 设备成为瓶颈

bcache会跟踪每个IO，如果IO的时间超过阈值，则旁路cache设备，直接读写backing设备。

如果你的SSD足够强大，可以不跟踪，减少跟踪的开销。

# echo 0 > /sys/fs/bcache/<cache set uuid>/congested_read_threshold_us

# echo 0 > /sys/fs/bcache/<cache set uuid>/congested_write_threshold_us

关闭旁路的另一个好处是，所有的离散读写都会经过cache设备，从而不会导致cache missing。

默认情况下当读请求超过2ms，写请求超过20ms时，旁路cache设备。

The default is 2000 us (2 milliseconds) for reads, and 20000 for writes.

错误处理

Bcache尝试透明地处理来自缓存设备的 IO 错误，而不会影响正常操作;如果它看到太多错误（阈值可配置，并且默认为0），它将关闭缓存设备并将所有 backing device 切换到 writethrough 模式。

对于从缓存读取，如果它们出现错误，将从 backing device 重新尝试读取

对于 writethroungh writes,如果写入缓存错误，我们只需切换到缓存中的 lba(Logical Block Address, LBA) 上使数据无效(即我们为绕过 cache write 做同样的事情)

For writethrough writes, if the write to the cache errors we just switch to invalidating the data at that lba in the cache (i.e. the same thing we do for a write that bypasses the cache)

对于 writeback writes,我们目前将该错误传递给文件系统/用户空间。这可以改进 - 我们可以尝试绕过缓存的写入，所以可心避免写入错误。

对于分离操作，我们首先尝试刷新任何脏数据(如果我们以 writeback 模式运行)。但是，如果它无法读取脏数据，它将不会做任何操作。

BACKING DEVICE

实际设备目录： /sys/block/<bdev>/bcache

/sys/block/bcache*/bcache

/sys/fs/bcache/<cset-uuid>/bdev*

attach

echo <cset-uuid> 到此文件将缓存设备连接到后端设备

cache_mode

可以是writethrough，writeback，writearound或none之一

clear_stats

写入此文件将重置正在运行的总(total)统计信息(不是 day/hour/5minute)

detach

写入此文件将从缓存集中分离.如果缓存中有脏数据，则会先刷新

dirty_data

缓存中此 backing device 的脏数据量, cache 设置的版本不断更新,但可能会稍微偏离

label

底层设备名称

readahead

应该执行的readahead的大小,默认为0.如果设置为1M,它会将cache未命中的数据读取到 1M,但是没有重叠现有的缓存条目

running

echo 1 可强制 bcache 在无 cache 的情况下运行

sequential_cutoff

一旦连续的 IO 大小越过此阈值，它将绕过缓存;最近的128个IO被跟踪，因此即使没有一次完成，也可以检测到连续的IO (default:4M)

sequential_merge

如果非零，bcache将提交的最后128个请求的列表与所有新请求进行比较，以确定哪些新请求是先前请求的顺序连续，以确定顺序截止.如果顺序截止值大于任何单个请求的最大可接受顺序大小，则这是必需的

state

backing device 可以处于四种不同状态之一：

no cache：从未附加到缓存集。

clean：部分缓存集，且 cache 没有脏数据。

dirty：部分缓存集,且 cache 有脏数据。

inconsistent：backing device 被用户强制运行后 cache 中存在脏数据但缓存集不可用时；backing device 上的任何数据可能已损坏

stop

写入此文件以关闭 bcache 设备并关闭 backing device

writeback_delay

当脏数据被写入 cache 并且之前没有包含任何数据时，在启动回写之前等待几秒钟。默认为30。

writeback_percent

bcache 试图保持这个百分比的 cache 脏数据,并通过调节 writeback 及使用 PD 控制器来平滑调整速率 (default:10)

writeback_rate

每秒多少扇区的速度 - 如果 writeback_percent 不为0,则回写被限制到指定速度。

由 bcache 连续调整，但也可由用户设置

writeback_running

如果关闭，则不会发生脏数据的回写，脏数据仍将被添加到缓存中，直到其将要满时.仅用于基准测试。默认开启 (default: on [on:1,off:0])

BACKING DEVICE 状态统计:

实际设备目录下有状态总计目录(stats_total)，以及一天(stats_day)，1小时(stats_hour)和5分钟(stats_five_minute)共四个目录,其中目录中的文件含义分别如下：

bypassed

绕过缓存的 IO (读取和写入)量

cache_hits

cache_misses

cache_hit_ratio

在 bcache 来看,hit 和 miss 根据每个 IO 来计数，部分 hit 会被计为 miss

cache_bypass_hits

cache_bypass_misses

绕过缓存的 IO 的 hit 和 miss 的计数

cache_miss_collisions

cache miss 插入 cache 的实例计数，但是随着写入和数据已经存在（通常为0，因为 cache miss 的同步被重写）

原文：

Counts instances where data was going to be inserted into the cache from a cache miss, but raced with a write and data was already present (usually 0 since the synchronization for cache misses was rewritten)

cache_readaheads

预读次数的计数

CACHE SET:

所在目录：/sys/fs/bcache/<cset-uuid>

average_key_size # todo

btree中每个键的平均大小

bdev<0..n>

link 到每个附加的 backing device

ls -lrth 的结果

bdev0 -> ../../../devices/pci0000:00/0000:00:02.2/0000:04:00.0/host0/port-0:0/expander-0:0/port-0:0:6/end_device-0:0:6/target0:0:6/0:0:6:0/block/sdg/bcache

block_size

缓存设备的块大小

btree_cache_size

btree 缓存当前使用的内存量

bucket_size

buckets 大小

cache<0..n>

link 到 cache device 的真实设备

cache0 -> ../../../devices/pci0000:00/0000:00:02.2/0000:04:00.0/host0/port-0:0/expander-0:0/port-0:0:5/end_device-0:0:5/target0:0:5/0:0:5:0/block/sdf/bcache

cache_available_percent

不包含脏数据的缓存设备的百分比，并且可能被用于回写。这并不意味着这个空间不用于清理缓存的数据;未使用的统计信息（在priority_stats中）通常要低得多。

清除与此高速缓存关联的统计信息

在缓存中脏数据的量（在垃圾回收(gc)运行时将更新）

flash_vol_create

echo 一个大小到这个文件,（以人类可读的单位，k/M/G）创建一个由缓存集支持的精简卷

io_error_halflife

io_error_limit

这些决定了在禁用缓存之前接受的错误数量,每个错误都会在半衰期之后衰减（在＃ios中）,如果衰减计数达到 io_error_limit，则会写出脏数据，并禁用缓存

journal_delay_ms

日志写入延迟几毫秒,除非缓存刷新发生得更早。默认值为100

root_usage_percent

正在使用的 root btree节点的百分比,如果这太高，节点会分裂，增加树的深度。(default:2)

写入此文件以关闭缓存集,等待直到所有连接的后备设备都已关闭

tree_depth

btree的深度（单节点btree的深度为0）(default:1)

unregister

分离所有 backing device 并关闭缓存设备,如果存在脏数据,它将禁用回写式缓存并等待它被刷新

CACHE SET INTERNAL

所在目录：/sys/fs/bcache/<cset-uuid>/internal/

此目录也暴露出大量的内部操作的计时，具有平均持续时间，平均频率，最后一个匹配项和最大持续时间：垃圾收集，btree读取，btree节点排序和btree分割

This directory also exposes timings for a number of internal operations, with separate files for average duration, average frequency, last occurrence and max duration: garbage collection, btree read, btree node sorts and btree splits.

active_journal_entries

比索引新的日志条目的数目

btree_nodes

btree中的总节点

btree_used_percent

btree在使用中的平均值

bset_tree_stats

关于辅助搜索树的统计

btree_cache_max_chain

btree节点缓存的哈希表中最长的链

cache_read_races

计数在从缓存读取数据的情况下，桶被重用和无效 - 即在读取完成后指针过期。发生这种情况时，数据将从后备设备重新读取

trigger_gc

写入此文件将强制运行垃圾回收

CACHE DEVICE:

<cdev>=cache设备的真实设备名

所在目录: /sys/block/<cdev>/bcache

block_size

写入的最小粒度应符合硬件扇区大小

btree_written

所有btree写入的总和，（千/兆/千兆）字节

bucket 大小

cache_replacement_policy

cache 刷新策略，lru，fifo或random

discard

存储SSD TRIM 开关的开启与关闭状态

延伸知识：在SSD上使用TRIM，默认是不开启的 (固态硬盘（SSD）为什么需要TRIM？,TRIM 的解释查看参考资料 Trim)

freelist_percent # 人为减小可以缓存的数据量

空闲cache的大小占总数的百分比。可以写入来增加freelist上保存的 bucket 数，这样可以在运行时人为地减小缓存的大小。主要用于测试目的（即测试不同大小的缓存如何影响您的命中率），但是由于在移动到freelist之后丢弃了 bucket，因此也可以通过有效地给予更多的保留空间来使SSD的垃圾回收更容易。

io_errors

发生的错误数量，由 io_error_halflife 衰减

metadata_written

所有非数据写入（btree写入和所有其他元数据）的总和

nbuckets

此缓存中的总桶数

priority_stats

关于缓存中最近的数据被访问的统计信息。这可以显示您的工作集大小。

Unused：是不包含任何数据的缓存的百分比
Metadata：是bcache的元数据占的百分比
Average：是 cache buckets 的平均优先级。
Quantiles：是每个具有优先级阈值的分位数的列表
a list of quantiles with the priority threshold of each

written

已写入高速缓存的所有数据的总和;与btree_written的比较获得 bcache 实际的写入增量

bcache 状态/配置文件详细介绍(翻译自官网）

声明：

什么是bcache

安装

调优

错误处理

BACKING DEVICE

BACKING DEVICE 状态统计:

CACHE SET INTERNAL

继续阅读

筑牢国产芯片软件生态，天翼云bcache解决方案来了

bcache 写导致io hung问题的追踪

安装Bcache中遇到的问题记录

bcache 状态/配置 文件详细介绍(翻译自官网）

声明：

什么是bcache

安装

调优

错误处理

BACKING DEVICE

BACKING DEVICE 状态统计:

CACHE SET INTERNAL

继续阅读

bcache 状态/配置文件详细介绍(翻译自官网）