操作系统笔记：IO 多路复用：select/poll/epoll 的代价模型

1 分钟阅读

发布于： June 01, 2019

这篇笔记把 IO 多路复用当作一个“代价模型”问题：在大量连接/FD 下，如何以更低的 CPU 成本判断哪些 FD 可读/可写。常见路径：

重点不在 API，而在“为什么 epoll 在高并发下更省 CPU、但仍会踩坑（ET/LT、惊群、回压）”。

1. 问题抽象：大量 FD 的就绪检测

假设有 100K 连接，绝大多数时刻只有很少连接有数据：

FD count: 100000
ready per tick: ~几十

如果每次循环都扫描全部 FD，CPU 会浪费在“检查不就绪”的工作上。

poll 去掉了 fdset 限制，但本质仍是：

结论：当 FD 很多、就绪很少时，select/poll 的 CPU 成本随 N 线性增长。

epoll 把工作拆成两步：

1) 注册：把 FD 加入 epoll 实例，并声明关心的事件 2) 等待：内核维护一个“已就绪列表”，epoll_wait 直接返回就绪集合

epoll_ctl(ADD, fd, events)
...
ready = epoll_wait(epfd)
for fd in ready:
  handle(fd)

关键在于“事件到来时谁负责把 fd 放入就绪队列”：

所以 epoll_wait 不必扫描所有 fd，而是消费 ready list。

只要 fd 仍然可读/可写，就会持续被返回。

优点：不易漏事件；缺点：若处理不彻底，可能反复被唤醒。

只有从“不可读→可读”这样的边沿变化时才通知一次。

优点：减少重复通知；缺点：若一次没把数据读干净，会“卡住”（不再收到通知）。

ET 的关键纪律：必须读到 EAGAIN。

on readable event:
  while true:
    n = read(fd, buf)
    if n > 0: continue
    if n == 0: close
    if errno == EAGAIN: break   // drained

多进程/多线程同时 epoll_wait，同一监听 socket 就绪时，可能出现：

缓解思路：

常见误用：把 EPOLLOUT 当作“可以一直写”，导致：

工程落点：

常见症状：

建议指标：

IO 多路复用的核心不是“多路”，而是把就绪检测从每轮 O(N) 扫描，变成事件到来时的增量维护。epoll 在高并发下更省 CPU，但 ET/LT、惊群与回压的工程细节决定了最终的尾延迟与稳定性。