Sitemap

论文：VSAG: An Optimized Search Framework for Graph-based Approximate Nearest Neighbor Search（PVLDB 18(12), 5017-5030, 2025）
原文：https://www.vldb.org/pvldb/vol18/p5017-cheng.pdf
DOI：10.14778/3750601.3750624
Artifact / Code：论文中给出 https://github.com/antgroup/vsag（GitHub: antgroup/vsag）

IndexLib（10）：文件系统抽象与存储格式

34 分钟阅读

发布于： July 28, 2025

在上一篇文章中，我们深入了解了 Locator 与数据一致性的实现。本文将继续深入，详细解析文件系统抽象与存储格式的实现，这是理解 IndexLib 如何管理文件存储和访问的关键。

IndexLib（9）：Locator 与数据一致性

56 分钟阅读

发布于： July 22, 2025

在上一篇文章中，我们深入了解了索引类型的实现。本文将继续深入，详细解析 Locator 的实现细节和数据一致性保证机制，这是理解 IndexLib 如何保证数据不重复、不丢失的关键。

IndexLib（8）：索引类型：Normal、KV、KKV

15 分钟阅读

发布于： July 14, 2025

在上一篇文章中，我们深入了解了内存管理与资源控制的机制。本文将继续深入，详细解析索引类型的实现，这是理解 IndexLib 如何支持不同类型索引的关键。

IndexLib（7）：内存管理与资源控制

13 分钟阅读

发布于： July 05, 2025

在上一篇文章中，我们深入了解了 Segment 合并策略的实现。本文将继续深入，详细解析内存管理与资源控制的机制，这是理解 IndexLib 如何高效管理内存和资源的关键。

IndexLib（6）：Segment 合并策略

18 分钟阅读

发布于： June 29, 2025

在上一篇文章中，我们深入了解了版本管理和增量更新的机制。本文将继续深入，详细解析 Segment 合并策略的实现，这是理解 IndexLib 如何优化索引结构和提高查询性能的关键。

IndexLib（5）：版本管理与增量更新

26 分钟阅读

发布于： June 24, 2025

在上一篇文章中，我们深入了解了查询流程的实现。本文将继续深入，详细解析版本管理和增量更新的机制，这是理解 IndexLib 如何管理索引版本和实现增量更新的关键。

IndexLib（4）：查询流程：TabletReader 与 IndexReader

26 分钟阅读

发布于： June 11, 2025

在上一篇文章中，我们深入了解了索引构建的完整流程。本文将继续深入，详细解析查询流程的实现，这是理解 IndexLib 如何从索引中查询数据的关键。

IndexLib（3）：索引构建流程：Build、Flush、Seal、Commit

32 分钟阅读

发布于： June 03, 2025

在上一篇文章中，我们深入了解了 Tablet 和 Segment 的组织方式。本文将继续深入，详细解析索引构建的完整流程，这是理解 IndexLib 如何从文档构建索引的关键。

IndexLib（2）：Tablet 与 Segment：索引的组织方式

24 分钟阅读

发布于： May 19, 2025

在上一篇文章中，我们介绍了 IndexLib 的整体架构和核心概念。本文将继续深入，详细解析 Tablet 和 Segment 的组织方式，这是理解 IndexLib 索引机制的关键。

IndexLib（1）：架构概览与核心概念

25 分钟阅读

发布于： May 08, 2025

前言

C++ Core Guidelines 阅读笔记（6）：模板与错误处理

5 分钟阅读

发布于： June 10, 2024

前言

C++ Core Guidelines 阅读笔记（5）：性能与并发

4 分钟阅读

发布于： May 10, 2024

前言

C++ Core Guidelines 阅读笔记（4）：表达式与语句

5 分钟阅读

发布于： April 10, 2024

前言

C++ Core Guidelines 阅读笔记（3）：资源管理

5 分钟阅读

发布于： March 15, 2024

前言

C++ Core Guidelines 阅读笔记（2）：函数与类设计

6 分钟阅读

发布于： February 10, 2024

前言

C++ Core Guidelines 阅读笔记（1）：哲学与接口设计

6 分钟阅读

发布于： January 15, 2024

前言

ARC：Adaptive Replacement Cache（论文笔记）

1 分钟阅读

发布于： August 01, 2023

论文：ARC: A Self-Tuning, Low Overhead Replacement Cache（Megiddo, Modha，FAST 2003）

WAFL：Write Anywhere File Layout（论文笔记）

1 分钟阅读

发布于： July 01, 2023

论文：Write Anywhere File Layout（Hitz, Lau, Malcolm，USENIX 1994；NetApp WAFL 系列公开资料的经典代表）

LFS：The Design and Implementation of a Log-Structured File System（论文笔记）

3 分钟阅读

发布于： June 01, 2023

论文：The Design and Implementation of a Log-Structured File System（Rosenblum, Ousterhout，SOSP 1991 / 1992 扩展版）

RAID：A Case for Redundant Arrays of Inexpensive Disks（论文笔记）

2 分钟阅读

发布于： May 01, 2023

论文：A Case for Redundant Arrays of Inexpensive Disks (RAID)（Patterson, Gibson, Katz，SIGMOD 1988）

存储笔记：冷热分层：把热点留在 NVMe，把冷数据放远端

少于 1 分钟阅读

发布于： April 01, 2023

本文是「存储笔记：冷热分层：把热点留在 NVMe，把冷数据放远端」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

RocksDB（2）：SST 结构与读路径（Table/Block/Index）

少于 1 分钟阅读

发布于： January 01, 2023

这一篇聚焦 RocksDB 的 SST（Sorted String Table）：一个 SST 里大致有什么，以及一次点查通常会经历哪些步骤。

一致性（2）：Raft 直觉（日志复制与提交）

3 分钟阅读

发布于： January 01, 2023

本文梳理 Raft 的核心机制“讲透但不啰嗦”：无需背完所有 RPC 字段，也能理解它为什么安全、为什么能工作、工程里该关注哪些边界条件。

存储笔记：写入合并（merge）与写扩散：从日志到段

少于 1 分钟阅读

发布于： December 01, 2022

本文是「存储笔记：写入合并（merge）与写扩散：从日志到段」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

RocksDB（1）：写入链路（WAL + MemTable）

1 分钟阅读

发布于： December 01, 2022

本文作为 RocksDB 系列的第 1 篇，先把「一次 Put()/Write() 从 API 到落盘语义」讲清楚：写入路径、确认点（durability）、以及写入抖动来自哪里。后续再分别展开 SST、读路径与 compaction 调参。

一致性（1）：从复制到一致性（Primary-Backup / Quorum）

1 分钟阅读

发布于： December 01, 2022

这篇作为“分布式一致性系列”第 1 篇，不从 Raft/Paxos 的细节开始，而是先把复制（replication）到底在保证什么讲清楚：

存储笔记：tombstone 与空间回收：为什么删除不等于释放

少于 1 分钟阅读

发布于： November 01, 2022

本文讲清楚一个容易误解的事实：在很多存储系统（尤其 LSM）里，Delete 并不等于空间立刻释放。删除本质上是“写入一个 tombstone（删除标记）”，真正回收空间通常发生在后台 compaction/GC 之后。

RocksDB 笔记：压缩与校验：CPU/IO 的权衡点

少于 1 分钟阅读

发布于： November 01, 2022

本文是「RocksDB 笔记：压缩与校验：CPU/IO 的权衡点」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

RocksDB 笔记：WriteBatch 与 seq：一次写入如何变成原子批次

1 分钟阅读

发布于： October 01, 2022

这篇讲清楚两件事：

一致性笔记：脑裂：什么时候会发生，怎么避免

1 分钟阅读

发布于： October 01, 2022

脑裂（split brain）的本质不是“网络断了”，而是：

RocksDB 笔记：Write stall：为什么会卡住、如何定位

少于 1 分钟阅读

发布于： September 01, 2022

本文是「RocksDB 笔记：Write stall：为什么会卡住、如何定位」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

一致性笔记：线性一致性：从客户端视角理解

1 分钟阅读

发布于： September 01, 2022

线性一致性（linearizability）这四个字经常被当成“强一致”的代名词，但工程里最重要的是：它是一个可以用客户端观察来定义、也可以被测试与反证的语义。

一致性笔记：日志复制：matchIndex 与提交规则

1 分钟阅读

发布于： August 01, 2022

这篇把 Raft 实现里两个最常见、也最容易误用的 index 讲清楚：

RocksDB 笔记：MemTable/Immutable：写入高峰的内存结构演进

1 分钟阅读

发布于： July 01, 2022

本文是「RocksDB 笔记：MemTable/Immutable：写入高峰的内存结构演进」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

一致性笔记：成员变更：joint consensus 的必要性

1 分钟阅读

发布于： July 01, 2022

成员变更（reconfiguration）是强一致系统里最容易“看起来只是改个列表”，但实际上非常危险的操作。

存储笔记：SSD 写放大与 FTL：为什么随机写更贵

少于 1 分钟阅读

发布于： June 01, 2022

在 SSD 上看到的“写放大”，常常不是上层存储引擎（LSM/B+Tree）带来的那一个，而是设备内部也在发生：

RocksDB 调优与实践（论文笔记）

8 分钟阅读

发布于： June 01, 2022

论文：RocksDB: Evolution of Development Priorities in a Key-Value Store Serving Large-Scale Applications（Dong et al., VLDB 2022）

一致性笔记：快照与日志截断：减少恢复时间

1 分钟阅读

发布于： June 01, 2022

这篇讲清楚一个“基于日志复制的一致性系统”迟早要面对的现实：

存储基础（5）：B+Tree vs LSM——读写与范围查询的权衡

少于 1 分钟阅读

发布于： May 01, 2022

本文是「存储基础系列」的第 5 篇：用“工作负载”的视角比较 B+Tree 与 LSM，两者没有绝对优劣，只有取舍。

RocksDB 笔记：Flush 触发条件：write buffer 与 L0 文件数量

1 分钟阅读

发布于： May 01, 2022

在 RocksDB 写入链路中，最容易遇到两类“看似突然”的现象：

PolarDB：云原生数据库架构（论文笔记）

10 分钟阅读

发布于： May 01, 2022

论文：PolarDB: A Cloud-Native Database Designed for the Cloud（Wang et al., SIGMOD 2022）

存储基础（4）：WAL、崩溃恢复与一致性

少于 1 分钟阅读

发布于： April 01, 2022

本文是「存储基础系列」的第 4 篇：为什么存储系统几乎都要 WAL，以及一个最小的崩溃恢复闭环应该长什么样。

LSM-Tree：The Log-Structured Merge-Tree（论文笔记）

6 分钟阅读

发布于： April 01, 2022

论文：The Log-Structured Merge-Tree（O’Neil et al., Acta Informatica 1996；在工程界常被视为 LSM 系统的源头之一）

一致性笔记：复制延迟：尾延迟如何影响提交点

1 分钟阅读

发布于： April 01, 2022

这篇解决一个工程上最常见的困惑：

存储基础（3）：LSM、Compaction 与写放大

1 分钟阅读

发布于： March 01, 2022

本文是「存储基础系列」的第 3 篇，建立一个 LSM 的“直觉模型”，并解释 compaction 为什么既是性能来源，也是写放大的主要来源。

RocksDB 笔记：Bloom / Ribbon filter：降低负查的成本

少于 1 分钟阅读

发布于： March 01, 2022

本文是「RocksDB 笔记：Bloom / Ribbon filter：降低负查的成本」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

System R：Access Path Selection（论文笔记）

2 分钟阅读

发布于： March 01, 2022

论文：Access Path Selection in a Relational Database Management System（Selinger et al., SIGMOD 1979）

Spanner：Globally-Distributed Database（论文笔记）

5 分钟阅读

发布于： March 01, 2022

论文：Spanner: Google’s Globally-Distributed Database（Corbett et al., OSDI 2012）

GFS：The Google File System（论文笔记）

7 分钟阅读

发布于： March 01, 2022

论文：The Google File System（Ghemawat, Gobioff, Leung, SOSP 2003）

一致性笔记：Quorum 的要点：读写多数派为什么能工作

1 分钟阅读

发布于： March 01, 2022

本文围绕“读写多数派（quorum）为什么能工作”做一次工程化梳理：不背公式也能理解它的安全性来源，能把它落到系统实现与排障上。

存储基础（2）：读放大、布隆过滤器与缓存

1 分钟阅读

发布于： February 01, 2022

本文是「存储基础系列」的第 2 篇，聊三个经常一起出现的概念：读放大（Read Amplification）、布隆过滤器（Bloom Filter）、以及 缓存（Cache / Page Cache / Block Cache）。它们本质上都在回答一个问题：“我为一次读取，付出了多少额外成本？”

Silo：High Performance OLTP（论文笔记）

2 分钟阅读

发布于： February 01, 2022

论文：Silo: Exploiting Message Passing and Shared Memory for OLTP（Tu et al., SOSP 2013）

MapReduce：Simplified Data Processing（论文笔记）

4 分钟阅读

发布于： February 01, 2022

论文：MapReduce: Simplified Data Processing on Large Clusters（Dean & Ghemawat, OSDI 2004）

Dynamo：Amazon’s Highly Available Key-value Store（论文笔记）

8 分钟阅读

发布于： February 01, 2022

论文：Dynamo: Amazon’s Highly Available Key-value Store（DeCandia et al., SOSP 2007）

存储基础（1）：写放大

1 分钟阅读

发布于： January 01, 2022

本文是「存储基础系列」第 1 篇：解释写放大（Write Amplification）是什么、为什么几乎所有存储系统都绕不开它，以及工程上如何衡量与优化。

RocksDB 笔记：Block Cache：缓存什么、怎么估算命中

1 分钟阅读

发布于： January 01, 2022

这篇笔记更“贴近工程现场”地回答 RocksDB 的一个高频问题：Block Cache 到底缓存什么？怎么估算需要多大？为什么“命中率看起来不低”但延迟还是很差？

Chubby：A Lock Service（论文笔记）

3 分钟阅读

发布于： January 01, 2022

论文：The Chubby Lock Service for Loosely-Coupled Distributed Systems（Burrows, OSDI 2006）

Bigtable：A Distributed Storage System for Structured Data（论文笔记）

14 分钟阅读

发布于： January 01, 2022

论文：Bigtable: A Distributed Storage System for Structured Data（Chang et al., OSDI 2006）

ARIES：Recovery Algorithm（论文笔记）

7 分钟阅读

发布于： January 01, 2022

论文：ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking and Partial Rollbacks（Mohan et al., ACM TODS 1992）

一致性笔记：Leader 选举：租约（lease）与心跳

少于 1 分钟阅读

发布于： January 01, 2022

本文是「一致性笔记：Leader 选举：租约（lease）与心跳」的工程化笔记，记录语义/模型定义、可观测信号与排障要点。

C++ 笔记：const 正确性与 mutable：不可变性的设计

3 分钟阅读

发布于： December 10, 2021

前言

KV存储笔记：删除、tombstone、TTL 与压缩（避免“删了又回来”）

1 分钟阅读

发布于： November 30, 2021

在 KV 存储里，“删除”很少是一个真正的 delete。尤其当底层是 LSM：

C++ 笔记：运算符重载：自定义类型的行为

3 分钟阅读

发布于： November 20, 2021

前言

C++ 笔记：多态与虚函数：运行时类型识别

4 分钟阅读

发布于： November 05, 2021

前言

C++ 笔记：迭代器与算法：STL 算法库的使用

3 分钟阅读

发布于： October 25, 2021

前言

KV存储笔记：版本、并发写与冲突解决（LWW / vector clock）

1 分钟阅读

发布于： October 22, 2021

复制 + quorum 的系统一旦允许在故障/分区下继续接受写，就必须回答：当同一 key 出现并发写时，系统如何定义“最终值”？

C++ 笔记：可变参数模板：参数包展开与折叠表达式

3 分钟阅读

发布于： October 15, 2021

前言

KV存储笔记：反熵（anti-entropy）、read-repair 与一致性修复

1 分钟阅读

发布于： September 18, 2021

复制系统长期运行一定会产生副本分歧（divergence）。原因不是“实现有 bug”，而是现实世界的常态：

C++ 笔记：类型推导：auto 与 decltype

2 分钟阅读

发布于： September 10, 2021

前言

C++ 笔记：STL 容器：选择与性能

2 分钟阅读

发布于： August 20, 2021

前言

KV存储（4）：复制、Quorum 读写与一致性边界

1 分钟阅读

发布于： August 15, 2021

分片解决了“把 keyspace 切开”与“扩缩容迁移”的问题，但它不解决可靠性。要让 KV 存储在节点故障、网络分区下仍可用，需要引入复制。复制引入了新的核心问题：

KV存储（3）：分片、路由与再均衡（hash / consistent hashing）

2 分钟阅读

发布于： July 20, 2021

这一篇聚焦 KV 存储做成“多机可扩展系统”时绕不开的第一件事：数据怎么分片、请求怎么路由、扩缩容怎么再均衡。主题看起来像“hash 环”，但工程上真正决定可用性与性能的是：

C++ 笔记：并发编程基础：线程与同步

1 分钟阅读

发布于： July 15, 2021

前言

C++ 笔记：异常安全与异常规范

6 分钟阅读

发布于： June 30, 2021

前言

KV存储笔记：Compaction 策略与写放大

3 分钟阅读

发布于： June 25, 2021

前言

C++ 笔记：Lambda 表达式与函数对象

11 分钟阅读

发布于： May 22, 2021

前言

KV存储笔记：WAL 与崩溃恢复

2 分钟阅读

发布于： May 18, 2021

前言

KV存储（2）：LSM-Tree 与 B+Tree 的权衡

1 分钟阅读

发布于： April 20, 2021

前言

C++ 笔记：智能指针：unique_ptr 与 shared_ptr

7 分钟阅读

发布于： April 18, 2021

前言

C++ 笔记：模板元编程基础

6 分钟阅读

发布于： March 25, 2021

前言

KV存储（1）：KV存储的核心概念

少于 1 分钟阅读

发布于： March 15, 2021

本文是KV存储系列的第 1 篇，先介绍KV存储的核心概念和基本抽象。

C++ 笔记：移动语义与完美转发

6 分钟阅读

发布于： February 20, 2021

前言

C++ 笔记：RAII 与资源管理

6 分钟阅读

发布于： January 15, 2021

前言

操作系统笔记：NUMA：内存分配与远端访问的代价

1 分钟阅读

发布于： September 01, 2019

NUMA（Non-Uniform Memory Access）机器上，“同样是内存访问”并不等价：访问本地 NUMA 节点的内存更快，访问远端节点更慢，且会引入额外互连流量。对延迟敏感服务而言，NUMA 问题经常表现为：

操作系统笔记：mmap 与 page fault：一次缺页到底发生了什么

1 分钟阅读

发布于： August 01, 2019

mmap 把“文件”与“内存地址空间”连接起来：读写文件内容可以变成对内存的 load/store。它常用于：

网络（2）：HTTP 缓存与 CDN

2 分钟阅读

发布于： August 01, 2019

前言

操作系统笔记：Page Cache 与回写（writeback）：为什么会抖

1 分钟阅读

发布于： July 01, 2019

线上常见的“IO 抖动”现象里，page cache 与 writeback（回写）经常是主角：吞吐看起来没变，但 P99/P999 延迟突然上升，甚至出现周期性尖刺。

网络（1）：TCP 可靠传输与拥塞控制直觉

2 分钟阅读

发布于： July 01, 2019

前言

计算机组成笔记：分支预测失败：流水线 flush 的代价

5 分钟阅读

发布于： July 01, 2019

本文深入解析分支预测失败导致的流水线 flush 机制、性能影响和优化方法。

操作系统笔记：IO 多路复用：select/poll/epoll 的代价模型

1 分钟阅读

发布于： June 01, 2019

这篇笔记把 IO 多路复用当作一个“代价模型”问题：在大量连接/FD 下，如何以更低的 CPU 成本判断哪些 FD 可读/可写。常见路径：

网络笔记：超时与重试：为什么会放大流量

3 分钟阅读

发布于： June 01, 2019

本文深入解析超时与重试机制如何导致流量放大，以及如何通过合理的策略避免这一问题。

计算机组成笔记：内存屏障：为什么需要 fence

4 分钟阅读

发布于： June 01, 2019

本文深入解析内存屏障（fence）的必要性、工作原理、常见场景和工程实践。

操作系统笔记：同步原语：mutex、futex 与条件变量

1 分钟阅读

发布于： May 01, 2019

这篇笔记整理三类经常一起出现的同步原语：mutex、futex、条件变量。重点不是 API 记忆，而是把“为什么快 / 为什么慢 / 为什么会卡住”拆成可观测的机制：

网络笔记：负载均衡：四层 vs 七层

3 分钟阅读

发布于： May 01, 2019

本文深入解析四层（L4）和七层（L7）负载均衡的工作原理、适用场景、性能特征和工程实践。

计算机组成笔记：SIMD：什么时候能提速，什么时候不行

4 分钟阅读

发布于： May 01, 2019

本文深入解析 SIMD（Single Instruction, Multiple Data）的工作原理、适用场景、性能边界和工程实践。

操作系统笔记：调度器：时间片与 CFS 的直觉

4 分钟阅读

发布于： April 01, 2019

本文深入解析 Linux CFS（Completely Fair Scheduler）的工作原理、vruntime 机制、调度策略和工程实践。

网络笔记：拥塞控制：CUBIC 与 BBR 的直觉差异

4 分钟阅读

发布于： April 01, 2019

本文深入解析拥塞控制的核心概念，以及 CUBIC 和 BBR 两种算法的设计差异、适用场景和工程实践。

计算机组成笔记：Profile 指标：IPC、cache miss、branch miss

6 分钟阅读

发布于： April 01, 2019

本文深入解析性能诊断的核心指标：IPC、cache miss 和 branch miss，以及它们之间的关系和诊断方法。

操作系统笔记：io_uring：异步 IO 的模型

4 分钟阅读

发布于： March 01, 2019

本文深入解析 io_uring 的设计原理、工作机制、适用场景和工程实践。

网络笔记：TLS 握手：延迟优化与会话复用

4 分钟阅读

发布于： March 01, 2019

本文深入解析 TLS 握手的工作原理、延迟来源、会话复用机制和工程优化实践。

计算机组成笔记：Cache line：伪共享与性能抖动

4 分钟阅读

发布于： March 01, 2019

本文深入解析 Cache line 的工作原理、伪共享（false sharing）的机制与影响，以及工程实践中的定位与优化方法。

OS（2）：虚拟内存与页表

4 分钟阅读

发布于： February 01, 2019

前言

网络笔记：TCP 重传：RTO 与 fast retransmit

4 分钟阅读

发布于： February 01, 2019

本文深入解析 TCP 重传机制：RTO（Retransmission Timeout）和 fast retransmit 的工作原理、性能影响和工程实践。

组成（2）：分支预测与流水线

6 分钟阅读

发布于： February 01, 2019

前言

OS（1）：进程/线程与上下文切换

3 分钟阅读

发布于： January 01, 2019

前言

网络笔记：HTTP/2：多路复用与队头阻塞

4 分钟阅读

发布于： January 01, 2019

本文深入解析 HTTP/2 的核心特性：多路复用、流控、头部压缩，以及传输层队头阻塞问题。

组成（1）：CPU Cache 与局部性

6 分钟阅读

发布于： January 01, 2019

周智龙

Sitemap

Pages

Posts

前言

前言

前言

前言

前言

前言

前言