RocksDB（1）：写入链路（WAL + MemTable）

1 分钟阅读

发布于： December 01, 2022

本文作为 RocksDB 系列的第 1 篇，先把「一次 Put()/Write() 从 API 到落盘语义」讲清楚：写入路径、确认点（durability）、以及写入抖动来自哪里。后续再分别展开 SST、读路径与 compaction 调参。

RocksDB 写入路径（抽象版）

1. 一次写入的最短闭环

从工程视角看，一次写入至少要满足：

因此 RocksDB 的典型路径是：

同样是 Put() 返回成功，不同配置/实现的语义可能不同：

很多线上系统会做：WriteOptions.sync=false + group commit（更高吞吐），并接受一个小的崩溃丢数据窗口（由业务决定）。

记住核心要点：“返回成功”到底意味着什么，不是 RocksDB 帮你决定的，而是由你的 WriteOptions + 业务容忍度共同决定的。

WAL 的存在让系统能在崩溃后通过重放恢复 MemTable 的状态。

使用时会遇到的关键点：

group commit：把多次 fsync 合并成一次

Q1：Put() 成功后立刻读，是否必须读到？
- 通常是“是”（写入已在 MemTable 可见），但跨 DB 实例/跨进程/跨节点就变成系统级一致性问题了。
Q2：Put() 成功后立刻断电，是否必须保住？
- 取决于 sync；sync=false 时你需要接受“丢一个批次”的窗口。
Q3：我看到 P99 抖动，但平均延迟还行，最可能是什么？
- 常见是 fsync/flush/compaction 的竞争、write stall/throttle，或 IO 抖动放大到了确认点上。

MemTable 让写入先落在内存里，代价是：

写入高峰时，MemTable 会不断转成 immutable，等待后台 flush。

如果 flush 跟不上，可以看到：

从“可解释的工程现象”出发，写入抖动最常见的来源是：

为了后面理解性能：

下一篇我们会从 SST 文件结构 切入：SST 里面的 block / index / filter 是怎么组织的，读路径为什么能做到“尽量少读”。