【Linux 网络子系统深度拆解】网络丢包定位：从 drop_monitor 到 kfree_skb 追踪

reason	含义	常见触发场景
`FULL_RING`	网卡 ring buffer 满	网卡接收速率超过 CPU 处理速率
`CPU_BACKLOG`	per-CPU backlog 队列满	RPS/RFS 分发后目标 CPU 处理不过来
`DEV_HDR`	设备头部错误	VLAN 头、PPP 头异常
`DEV_READY`	设备未就绪	接口 down 或正在初始化
`OTHERHOST`	包不属于本机	混杂模式下收到他人的包

reason	含义	常见触发场景
`IP_CSUM`	IP 校验和错误	硬件卸载故障或链路噪声
`IP_INHDR`	IP 头部异常	头部长度、版本号错误
`IP_RPFILTER`	反向路径过滤失败	非对称路由且 `rp_filter=1`
`IP_NOPROTO`	不支持的 IP 协议	未加载对应协议模块
`IP_INADDRERRORS`	目标地址错误	非本机地址且未开启转发
`IP_INNOROUTES`	无路由	路由表中无匹配项
`IP_OUTNOROUTES`	出口无路由	发送时找不到出口路由
`PKT_TOO_BIG`	包太大（超过 MTU）	MTU 不匹配且 DF 位置位
`PKT_TOO_SMALL`	包太小	小于最小合法长度

reason	含义	常见触发场景
`TCP_CSUM`	TCP 校验和错误	链路损坏或中间设备修改
`TCP_FLAGS`	TCP 标志位异常	无效的标志组合
`TCP_ZEROWINDOW`	零窗口	接收端窗口为 0
`TCP_OLD_DATA`	旧数据	已确认的数据重复到达
`TCP_OVERWINDOW`	超出接收窗口	序列号超出接收窗口范围
`TCP_OFOMERGE`	OFO 队列合并丢弃	乱序队列中的重叠段
`TCP_RFC7323_PAWS`	PAWS 时间戳检查失败	时间戳回退
`TCP_OLD_SEQUENCE`	旧序列号	重传的旧包
`TCP_INVALID_SEQUENCE`	无效序列号	不在预期范围内
`TCP_RESET`	RST 包	连接被重置
`TCP_INVALID_SYN`	无效 SYN	SYN 到非 LISTEN socket
`TCP_CLOSE`	连接已关闭	包到达已关闭的 socket
`TCP_FASTOPEN`	TFO 失败	Fast Open cookie 不匹配
`TCP_OLD_ACK`	旧 ACK	ACK 号低于 snd_una
`TCP_TOO_OLD_ACK`	过旧 ACK	ACK 严重滞后
`TCP_ACK_UNSENT_DATA`	ACK 未发送数据	ACK 号超过 snd_nxt
`TCP_OFO_QUEUE_PRUNE`	OFO 队列修剪	内存压力下清理乱序队列
`TCP_OFO_DROP`	OFO 队列丢弃	乱序队列满
`TCP_MINTTL`	TTL 太小	TTL 低于 min_ttl（BGP 安全）

reason	含义	常见触发场景
`UDP_CSUM`	UDP 校验和错误	数据损坏
`NO_SOCKET`	找不到目标 socket	无进程监听该端口

reason	含义	常见触发场景
`SOCKET_RCVBUFF`	socket 接收缓冲区满	应用读取太慢，`SO_RCVBUF` 太小
`PROTO_MEM`	协议内存限制	`net.ipv4.udp_mem` 等达到上限
`SOCKET_BACKLOG`	backlog 队列满	`net.core.somaxconn` 或 `listen()` backlog 不足
`SOCKET_FILTER`	socket filter 丢弃	BPF socket filter 返回 0

reason	含义	常见触发场景
`NETFILTER_DROP`	Netfilter 丢弃	iptables/nftables DROP 规则
`XDP`	XDP 程序丢弃	XDP 返回 `XDP_DROP`
`TC_INGRESS`	TC ingress 丢弃	TC BPF 返回 `TC_ACT_SHOT`
`TC_EGRESS`	TC egress 丢弃	TC egress filter 丢弃
`BPF_CGROUP_EGRESS`	cgroup BPF 丢弃	cgroup egress 策略拒绝
`XFRM_POLICY`	IPsec 策略失败	XFRM 策略检查不通过

reason	含义	常见触发场景
`QDISC_DROP`	qdisc 丢弃	队列满（pfifo_fast/fq_codel/HTB）
`QUEUE_PURGE`	队列清除	qdisc 被删除或重置

方法	开销	适合场景
`nstat` / `/proc/net/snmp`	零	始终开启，快速定界
`ethtool -S`	零	始终可查，网卡级
`kfree_skb` tracepoint + bpftrace	~100-200 ns/丢包	实时诊断
`perf record -e skb:kfree_skb`	~100 ns/丢包	录制分析
`ftrace event`	~50-100 ns/丢包	最小化环境
`dropwatch`	~100 ns/丢包	快速交互式诊断

2025-07-23 · linux / networking

【Linux 网络子系统深度拆解】内核网络追踪工具箱：bpftrace/perf/ftrace 实战

从内核 tracepoint 定义出发，系统讲解 bpftrace、perf、ftrace 三大工具在网络诊断中的实战用法：TCP 重传根因分析、softirq 延迟定位、收发包路径延迟剖析、conntrack 表满监控、per-function 火焰图，以及各工具的适用场景与性能开销对比。

2025-07-22 · linux / networking

【Linux 网络子系统深度拆解】eBPF 网络钩子全景：TC/XDP/socket/cgroup

从内核源码全面拆解 eBPF 在网络子系统中的所有挂载点：TC BPF direct-action 模式与 bpf_mprog 多程序链、XDP 驱动级钩子回顾、socket ops 回调与 TCP 生命周期事件、cgroup BPF 策略控制、sk_msg/sk_skb 的 sockmap 重定向引擎、struct_ops 实现自定义拥塞控制，以及 bpftrace 可观测实战。

2025-07-21 · linux / networking

【Linux 网络子系统深度拆解】XDP 内核实现：在驱动层重编程网络栈

从内核源码拆解 XDP 的完整实现：xdp_buff 数据结构、驱动级钩子、五种动作路径、AF_XDP 零拷贝通道、devmap/cpumap/xskmap 重定向机制、多缓冲区支持，以及 bpftrace 可观测实战。

2025-07-20 · linux / networking

【Linux 网络子系统深度拆解】网络子系统内存管理：sk_buff 分配、page pool 与 NUMA

从内核源码拆解网络子系统的内存管理全貌：sk_buff 分配路径与 slab 缓存、page_pool 页面回收机制、NUMA 感知分配策略、socket 内存记账与反压，以及 bpftrace 可观测实战。

推荐订阅源

土法炼钢兴趣小组的算法知识备份

1.1 kfree_skb vs consume_skb

1.2 kfree_skb tracepoint 结构

1.3 consume_skb tracepoint

二、drop_reason：80+ 种丢包原因全解

2.1 核心丢包原因枚举

2.2 子系统扩展机制

三、drop_monitor 子系统

3.1 工作原理

3.2 使用 dropwatch 工具

3.3 devlink trap：硬件丢包监控

四、实战：多工具丢包定位

4.1 bpftrace：按原因聚合丢包

4.2 bpftrace：追踪特定原因的丢包调用栈

4.3 perf：记录丢包事件

4.4 ftrace：最轻量追踪

4.5 nstat 和 /proc/net/snmp：统计计数器

五、常见丢包场景诊断手册

5.1 网卡 ring buffer 满（FULL_RING）

5.2 socket 接收缓冲区满（SOCKET_RCVBUFF）

5.3 Netfilter/iptables 丢弃（NETFILTER_DROP）

5.4 TCP 序列号相关丢弃

5.5 qdisc 队列满（QDISC_DROP）

六、丢包追踪流程总结

6.1 系统化排查流程

6.2 drop_reason 快速查询

6.3 性能开销

参考文献

同主题继续阅读

【Linux 网络子系统深度拆解】内核网络追踪工具箱：bpftrace/perf/ftrace 实战

【Linux 网络子系统深度拆解】eBPF 网络钩子全景：TC/XDP/socket/cgroup

【Linux 网络子系统深度拆解】XDP 内核实现：在驱动层重编程网络栈

【Linux 网络子系统深度拆解】网络子系统内存管理：sk_buff 分配、page pool 与 NUMA