RocksDB 笔记：Block Cache：缓存什么、怎么估算命中

1 分钟阅读

发布于： January 01, 2022

这篇笔记更“贴近工程现场”地回答 RocksDB 的一个高频问题：Block Cache 到底缓存什么？怎么估算需要多大？为什么“命中率看起来不低”但延迟还是很差？

RocksDB 读路径上的 Block Cache：命中与未命中的差别

1. 背景：这个问题通常在什么场景出现

目标最好可量化：例如 P99 read latency < 5ms、device read bytes/s 降到某阈值、或 block cache data hit rate 达到某区间。

这里用 6 个概念把模型搭起来（够用、且可落地）：

Block：SST 的最小 IO 单元（通常 4KB~16KB/64KB，具体看配置/数据分布）。
三类可缓存块：
- data block：真正的 KV 数据（通常占 cache 的大头，也是决定读性能的关键）。
- index block：把 key range 映射到 data block handle（更小、更容易被 cache）。
- filter block（Bloom）：快速判断“这个文件是否可能包含 key”（对负查收益巨大）。
命中/未命中成本差：
- 命中：内存读 + 少量解析（非常稳定）
- 未命中：随机 IO + 校验 +（可能）解压 + 插入 cache（尾延迟显著更差）
工作集（working set）：真正“频繁被读”的数据集合（不等于总数据量）。
驱逐（eviction）：cache 装不下工作集时就会频繁淘汰，导致“抖”。

经验：追求的通常不是最高平均命中率，而是稳定的 data block 命中（尤其热点表/热点 key-range）。

把它拆成“输入 → 路径 → 现象”的链路（每一项都能在指标里验证）：

输入
- 点查 vs 范围扫：范围扫更容易触发顺序读/预取，但也更容易把 cache 冲掉
- 读 key 分布：Zipf（热点明显）通常更“适合 cache”，均匀分布则更难命中
- value 大小：value 很大时，单个 data block 里有效数据比例会变差
路径
1. 先查 MemTable/Immutable（命中则无需落盘读）
2. 对每个候选 SST：先 filter（可能）→ index 定位 → data block 读
3. data block 读完：校验/解压 → 放入 cache（下次命中）
现象
- index/filter 命中不错，但 data 命中差 → 看起来“有 cache”，但延迟仍差
- compaction 高峰时命中率下降 → cache 与后台读写争抢内存/IO

需要区分三种命中率：

如果你只盯总体 hit rate，很容易误判。

把 cache 调大/调小，真正的权衡在这里：

Block Cache 的核心不是“把 hit rate 调到最高”，而是：

下一步如果愿意，我们可以把本文继续补到“更硬核”的程度：加入 RocksDB 常用统计项（tickers/histograms）的对照表，以及一个按 workload 估算 cache size 的示例（从工作集和 block 大小推算）。