目录

Raid 卡 Consistency Check 导致 io 延迟变高

目录

文章简介:每周六 11:00 定时出现的 IO 延迟,最终定位到 Raid 卡的后台一致性检查(CC & PR)。关闭后延迟消失,复盘记录在此。

机器机器 raid 信息

调整前磁盘 etcd 的 grep -E '(apply request took too lon)|(slow fdatasyn)' took 趋势:

/raid-cc-causes-disk-io-lantency-increase/images/image.png

客户现场的机器是浪潮的整机,信息如下:

1
TODO: 确认下客户机器信息

根据 io 延迟的出现时间,判断每周六的 11:00 出现的定时任务;

  • 业务层排查:无对应定时任务
  • 宿主机排查:无异常进程
  • 怀疑硬件与厂商确认:Raid 卡默认每周六 11:00 运行 Consistency Check(CC)与 Patrol Read(PR)

关闭后 etcd 的延迟几乎消失: /raid-cc-causes-disk-io-lantency-increase/images/image-1.png

在内网找了 3 台同型号机器(Raid 卡:AVAGOMegaRAIDSAS9361-8i),400 GB SSD RAID 1 平均 Disk Average Wait Time:

/raid-cc-causes-disk-io-lantency-increase/images/image-2.png

/raid-cc-causes-disk-io-lantency-increase/images/image-3.png

/raid-cc-causes-disk-io-lantency-increase/images/image-4.png

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
[root@TODO storcli]# ./storcli64 /c0 show
----------------------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model                      Sp Type 
----------------------------------------------------------------------------------------
252:0    14 Onln   0 446.625 GB SATA SSD N   N  512B SAMSUNG MZ7LH480HAHQ-00005 U  -    
252:1    15 Onln   0 446.625 GB SATA SSD N   N  512B SAMSUNG MZ7LH480HAHQ-00005 U  -    
252:2     8 Onln   1   7.276 TB SATA HDD N   N  512B ST8000NM000A-2KE101        U  -    
252:3     9 Onln   1   7.276 TB SATA HDD N   N  512B ST8000NM000A-2KE101        U  -    
252:5    11 Onln   1   7.276 TB SATA HDD N   N  512B ST8000NM000A-2KE101        U  -    
252:6    12 Onln   1   7.276 TB SATA HDD N   N  512B ST8000NM000A-2KE101        U  -    
252:7    13 Onln   1   7.276 TB SATA HDD N   N  512B ST8000NM000A-2KE101        U  -    
----------------------------------------------------------------------------------------

[root@TODO storcli]# ./storcli64 /c0 show cc
CLI Version = 007.3404.0000.0000 April 18, 2025
Operating system = Linux 3.10.0-1160.el7.x86_64
Controller = 0
Status = Success
Description = None


Controller Properties :
=====================

-----------------------------------------------
Ctrl_Prop                 Value                
-----------------------------------------------
CC Operation Mode         Concurrent           
CC Execution Delay        168 hours            
CC Next Starttime         07/26/2025, 03:00:00 
CC Current State          Stopped              
CC Number of iterations   164                  
CC Number of VD completed 2                    
CC Excluded VDs           None                 
-----------------------------------------------


[root@TODO storcli]# ./storcli64 /c0 show pr
CLI Version = 007.3404.0000.0000 April 18, 2025
Operating system = Linux 3.10.0-1160.el7.x86_64
Controller = 0
Status = Success
Description = None


Controller Properties :
=====================

---------------------------------------------
Ctrl_Prop               Value                
---------------------------------------------
PR Mode                 Auto                 
PR Execution Delay      168 hours            
PR iterations completed 120                  
PR Next Start time      07/26/2025, 03:00:00 
PR on SSD               Disabled             
PR Current State        Stopped              
PR Excluded VDs         None                 
PR MaxConcurrentPd      248                  
---------------------------------------------

ssd 上已经 disable 了 PR,只有 cc,看起来 cc 给磁盘带来了大约 5ms ± 15ms 左右的 iowait,而客户这边 io wait 跟比这要高非常多。

参考:浅谈 Raid 卡的两种一致性校验方式(PR&CC)

找了硬件厂商的人,反馈回来:

1
2
3
4
因 CC 和 PR 校验会影响硬盘 IO,不同业务环境对延迟敏感程度不同,系统下受影响的现象不同,目前推荐如下:

1. CC 周期推荐 28 天执行一次,默认 Cc rate 为 30%,这个 30% 是一个大约的 CPU 时间占用比例,由这个 rate 决定多久进行一次 Cc 的后台动作,但是即使降到 0 也会占用一点 CPU,因为 CC 必须要做。(目前已调整至 5%,已经最低)
2. 如实际业务对延迟较敏感,请评估是否关闭 CC。关闭 CC 后,因 CC 带来的 IO 性能和延迟影响得到改善。建议参考 CC 对性能和数据安全的影响进行综合评估。关闭 CC 后,在遇到盘端有介质错误的时候,RAID 卡端会花费更多的时间来尝试读取数据并标记修复异常数据,可能造成延迟升高,严重情况下,如果同条带中多个数据错误可能会导致数据丢失。

接下来继续等待硬件厂商的 debug 结果吧。

后续

  • 等待厂商进一步 debug
  • 对 etcd 场景而言,已有 snapshot + 12 h 备份,可直接关闭 CC 以换取确定性低延迟
  • 是否可将 etcd 数据目录直接放 tmpfs?需评估内存容量与断电风险

结论

Raid 卡不是免费的午餐,后台维护任务同样消耗资源。在延迟敏感型业务中,需要显式权衡数据安全与性能。