浅析磁盘常见的性能指标及观测IO性能指标的命令

频道：行业资讯日期：2023-03-27 02:59:13 浏览：716

磁盘性能指标说明

衡量磁盘性能常见的指标有: 使用率、饱和度、IOPS、吞吐量以及响应时间，具体说明如下：

使用率，是指磁盘处理 I/O 的时间百分比。过高的使用率（比如超过 80%），通常意味着磁盘 I/O 存在性能瓶颈。饱和度，是指磁盘处理 I/O 的繁忙程度。过高的饱和度，意味着磁盘存在严重的性能瓶颈。当饱和度为 100% 时，磁盘无法接受新的 I/O 请求。IOPS（Input/Output Per Second），是指每秒的 I/O 请求数。吞吐量，是指每秒的 I/O 请求大小，即每秒磁盘 I/O 的流量，磁盘写入加上读出数据的大小。单位为bps。响应时间，是指 I/O 请求从发出到收到响应的间隔时间。

IOPS 与吞吐量的关系

每秒 I/O 吞吐量＝ IOPS * 平均 I/O SIZE。从公式可以看出： I/O SIZE 越大，IOPS 越高，那么每秒 I/O 的吞吐量就越高。因此，我们会认为 IOPS 和吞吐量的数值越高越好。实际上，对于一个磁盘来讲，这两个参数均有其最大值，而且这两个参数也存在着一定的关系。

IOPS可细分为如下几个指标：

Toatal IOPS，混合读写和顺序随机I/O负载情况下的磁盘IOPS，这个与实际I/O情况最为相符，大多数应用关注此指标。Random Read IOPS，100%随机读负载情况下的IOPS。Random Write IOPS，100%随机写负载情况下的IOPS。Sequential Read IOPS，100%顺序读负载情况下的IOPS。Sequential Write IOPS，100%顺序写负载情况下的IOPS。

常用的观测IO性能指标命令

iostat

iostat，对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况，同时也会汇报出CPU使用情况。iostat也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。

命令参数说明：

-c：显示CPU使用情况-d：显示磁盘使用情况-N：显示磁盘阵列(LVM) 信息-n：显示NFS 使用情况-k：以 KB 为单位显示-m：以 M 为单位显示-t：报告每秒向终端读取和写入的字符数和CPU的信息-V：显示版本信息-x：显示IO相关的详细信息-p [磁盘] ：显示磁盘和分区的情况备注：

如果%iowait的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲。

如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。

如果%idle值持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

CPU属性值说明：

%user： CPU处在用户模式下的时间百分比%nice： CPU处在带NICE值的用户模式下的时间百分比%system： CPU处在系统模式下的时间百分比%iowait： CPU等待输入输出完成时间的百分比%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比%idle： CPU空闲时间百分比

磁盘属性值说明：

device: 磁盘名称tps: 每秒钟发送到的I/O请求数Blk_read/s: 每秒读取的block数Blk_wrtn/s: 每秒写入的block数Blk_read: 读入的block总数Blk_wrtn: 写入的block总数

磁盘IO相关的详细说明：

rrqm/s: 每秒进行 merge 的读操作数目。即 rmerge/swrqm/s: 每秒进行 merge 的写操作数目。即 wmerge/sr/s: 每秒完成的读 I/O 设备次数。即 rio/sw/s: 每秒完成的写 I/O 设备次数。即 wio/srkB/s: 每秒读K字节数。是 rsect/s 的一半，因为每扇区大小为512字节。wkB/s: 每秒写K字节数。是 wsect/s 的一半avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区)avgqu-sz: 平均I/O队列长度rsec/s: 每秒读扇区数。即 rsect/swsec/s: 每秒写扇区数。即 wsect/sr_await: 每个读操作平均所需的时间，不仅包括硬盘设备读操作的时间，还包括了在kernel队列中等待的时间w_await: 每个写操作平均所需的时间，不仅包括硬盘设备写操作的时间，还包括了在kernel队列中等待的时间await: 平均每次设备I/O操作的等待时间 (毫秒)svctm: 平均每次设备I/O操作的服务时间 (毫秒)%util: 一秒中有百分之多少的时间用于 I/O 操作，即被io消耗的cpu百分比备注：

如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

如果 svctm 比较接近 await，说明 I/O 几乎没有等待时间；

如果 await 远大于 svctm，说明I/O 队列太长，io响应太慢，则需要进行必要优化。

如果avgqu-sz比较大，也表示有当量io在等待。

示例：查看cpu状态

iostat -c 1 1

示例：查看磁盘使用率和响应时间

# -d 显示磁盘使用情况，-x 显示详细信息 iostat -d -x -k 1 1

其他示例

# 间隔1秒，总共显示5次 iostat 1 5 # 每隔2秒,显示一次设备统计信息 iostat -d 2 # 每隔2秒,显示一次设备统计信息，总共输出3次 iostat -d 2 3 # 每隔2秒显示一次sda, sdb两个设备的扩展统计信息,共输出3次 iostat -x sda sdb 2 3 # 每隔2秒显示一次sda及上面所有分区的统计信息,共输出3次 iostat -p sda 2 3 # 以M为单位显示所有信息 iostat -m

pidstat

pidstat，用于监控全部或指定进程的cpu、内存、线程、设备IO等系统资源的占用情况。pidstat首次运行时显示自系统启动开始的各项统计信息，之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。

命令参数说明：

-u：默认的参数，显示各个进程的cpu使用统计-r：显示各个进程的内存使用统计-d：显示各个进程的IO使用情况-p：指定进程号-w：显示每个进程的上下文切换情况-t：显示选择任务的线程的统计信息外的额外信息-T TASK CHILD | ALL ：TASK表示报告独立的task，CHILD关键字表示报告进程下所有线程统计信息。ALL表示报告独立的task和task下面的所有线程。注意：task和子线程的全局的统计信息和pidstat选项无关。这些统计信息不会对应到当前的统计间隔，这些统计信息只有在子线程kill或者完成的时候才会被收集-V：显示版本号-h：在一行上显示了所有活动，这样其他程序可以容易解析-I：在SMP环境，表示任务的CPU使用率/内核数量-l：显示命令名和所有参数

示例：查看所有进程的CPU使用情况

pidstat -u -p ALL Linux 3.10.0-957.el7.x86_64 (VM-75-65) 04/24/2020 _x86_64_ (4 CPU) 02:10:43 PM UID PID %usr %system %guest %CPU CPU Command 02:10:43 PM 0 1 0.00 0.01 0.00 0.01 0 systemd 02:10:43 PM 0 2 0.00 0.00 0.00 0.00 1 kthreadd 02:10:43 PM 0 3 0.00 0.06 0.00 0.06 0 ksoftirqd/0 02:10:43 PM 0 7 0.00 0.00 0.00 0.00 0 migration/0 02:10:43 PM 0 8 0.00 0.00 0.00 0.00 3 rcu_bh 02:10:43 PM 0 9 0.00 0.16 0.00 0.16 2 rcu_sched 02:10:43 PM 0 10 0.00 0.00 0.00 0.00 0 lru-add-drain 02:10:43 PM 0 11 0.00 0.00 0.00 0.00 0 watchdog/0

属性值说明：

PID：进程ID%usr：进程在用户空间占用cpu的百分比%system：进程在内核空间占用cpu的百分比%guest：进程在虚拟机占用cpu的百分比%CPU：进程占用cpu的百分比CPU：处理进程的cpu编号Command：当前进程对应的命令

示例：查看指定进程的内存使用情况

指定PID为29468的进程内存使用情况，每秒展示一次，展示四次！也可以直接pidstat -r，是全部进程的内存使用情况！

pidstat -r -p 29468 1 4 Linux 3.10.0-957.el7.x86_64 (VM-75-65) 04/24/2020 _x86_64_ (4 CPU) 02:16:00 PM UID PID minflt/s majflt/s VSZ RSS %MEM Command 02:16:01 PM 0 29468 0.00 0.00 413040 4104 0.03 docker-containe 02:16:02 PM 0 29468 0.00 0.00 413040 4104 0.03 docker-containe 02:16:03 PM 0 29468 0.00 0.00 413040 4104 0.03 docker-containe 02:16:04 PM 0 29468 0.00 0.00 413040 4104 0.03 docker-containe Average: 0 29468 0.00 0.00 413040 4104 0.03 docker-containe

属性值说明：

PID：进程标识符Minflt/s：任务每秒发生的次要错误，不需要从磁盘中加载页Majflt/s：任务每秒发生的主要错误，需要从磁盘中加载页VSZ：虚拟地址大小，虚拟内存的使用KBRSS：常驻集合大小，非交换区内存的使用KBCommand：task命令名

也可以直接pidstat -r，是全部进程的内存使用情况！

示例：显示各个进程IO的使用情况

pidstat -d Linux 3.10.0-957.el7.x86_64 (VM-75-65) 04/24/2020 _x86_64_ (4 CPU) 02:25:35 PM UID PID kB_rd/s kB_wr/s kB_ccwr/s Command 02:25:35 PM 0 1 6.42 242.84 0.72 systemd 02:25:35 PM 0 2432 0.00 0.00 0.00 xfsaild/sda3 02:25:35 PM 0 2501 0.00 0.00 0.00 systemd-journal 02:25:35 PM 0 2522 0.00 0.00 0.00 lvmetad 02:25:35 PM 0 2539 0.35 0.00 0.00 systemd-udevd 02:25:35 PM 0 4863 0.00 0.17 0.00 auditd 02:25:35 PM 32 4893 0.00 0.00 0.00 rpcbind 02:25:35 PM 0 4894 0.00 0.00 0.00 smartd 02:25:35 PM 0 4896 0.00 0.00 0.00 irqbalance

属性值说明：

PID：进程IDkB_rd/s：每秒从磁盘读取的KBkB_wr/s：每秒写入磁盘KBkB_ccwr/s：任务取消的写入磁盘的KB。当任务截断脏的pagecache的时候会发生。COMMAND：task的命令名

示例：进程的上下文切换情况

pidstat -w Linux 3.10.0-957.el7.x86_64 (VM-75-65) 04/24/2020 _x86_64_ (4 CPU) 02:26:50 PM UID PID cswch/s nvcswch/s Command 02:26:50 PM 0 1 0.36 0.00 systemd 02:26:50 PM 0 2 0.01 0.00 kthreadd 02:26:50 PM 0 3 10.42 0.00 ksoftirqd/0 02:26:50 PM 0 5 0.00 0.00 kworker/0:0H 02:26:50 PM 0 7 1.77 0.00 migration/0 02:26:50 PM 0 8 0.00 0.00 rcu_bh 02:26:50 PM 0 9 114.23 0.00 rcu_sched 02:26:50 PM 0 10 0.00 0.00 lru-add-drain 02:26:50 PM 0 11 0.25 0.00 watchdog/0 02:26:50 PM 0 12 0.25 0.00 watchdog/1

属性值说明：

PID：进程IDcswch/s：每秒主动任务上下文切换数量nvcswch/s：每秒被动任务上下文切换数量Command：命令名

示例：显示特定进程的线程统计情况

pidstat -p 12920 -t Linux 2.6.32-573.el6.x86_64 (VM-75-64) 04/24/2020 _x86_64_ (8 CPU) 02:20:23 PM TGID TID %usr %system %guest %CPU CPU Command 02:20:23 PM 12920 - 0.00 0.00 0.00 0.00 3 java 02:20:23 PM - 12920 0.00 0.00 0.00 0.00 3 |__java 02:20:23 PM - 12922 0.00 0.00 0.00 0.00 6 |__java 02:20:23 PM - 12923 0.00 0.00 0.00 0.00 0 |__java 02:20:23 PM - 12924 0.00 0.00 0.00 0.00 0 |__java 02:20:23 PM - 12925 0.00 0.00 0.00 0.00 2 |__java 02:20:23 PM - 12926 0.00 0.00 0.00 0.00 5 |__java 02:20:23 PM - 12927 0.00 0.00 0.00 0.00 4 |__java 02:20:23 PM - 12928 0.00 0.00 0.00 0.00 1 |__java 02:20:23 PM - 12930 0.00 0.00 0.00 0.00 5 |__java 02:20:23 PM - 12931 0.00 0.00 0.00 0.00 5 |__java 02:20:23 PM - 12932 0.00 0.00 0.00 0.00 3 |__java 02:20:23 PM - 12933 0.00 0.00 0.00 0.00 4 |__java 02:20:23 PM - 12934 0.00 0.00 0.00 0.00 4 |__java 02:20:23 PM - 12935 0.00 0.00 0.00 0.00 5 |__java 02:20:23 PM - 12936 0.00 0.00 0.00 0.00 3 |__java 02:20:23 PM - 12938 0.00 0.00 0.00 0.00 5 |__java 02:20:23 PM - 12939 0.00 0.00 0.00 0.00 1 |__java 02:20:23 PM - 12940 0.00 0.00 0.00 0.00 6 |__java 02:20:23 PM - 12941 0.00 0.00 0.00 0.00 2 |__java 02:20:23 PM - 12943 0.00 0.00 0.00 0.00 6 |__java

属性值说明：

TGID：主线程的表示TID：线程id%usr：进程在用户空间占用cpu的百分比%system：进程在内核空间占用cpu的百分比%guest：进程在虚拟机占用cpu的百分比%CPU：进程占用cpu的百分比CPU：处理进程的cpu编号Command：当前进程对应的命令

iotop

iotop是一个用来监视磁盘I/O使用状况的 top 类工具，可监测到哪一个程序使用的磁盘IO的信息。

命令参数说明：

-o, --only只显示正在产生I/O的进程或线程。除了传参，可以在运行过程中按o生效。-b, --batch非交互模式，一般用来记录日志。-n NUM, --iter=NUM设置监测的次数，默认无限。在非交互模式下很有用。-d SEC, --delay=SEC设置每次监测的间隔，默认1秒，接受非整形数据例如1.1。-p PID, --pid=PID指定监测的进程/线程。-u USER, --user=USER指定监测某个用户产生的I/O。-P, --processes仅显示进程，默认iotop显示所有线程。-a, --accumulated显示累积的I/O，而不是带宽。-k, --kilobytes使用kB单位，而不是对人友好的单位。在非交互模式下，脚本编程有用。-t, --time 加上时间戳，非交互非模式。-q, --quiet 禁止头几行，非交互模式。有三种指定方式，其中，-q表示只在第一次监测时显示列名，-qq表示永远不显示列名，-qqq表示永远不显示I/O汇总。

交互按键：

和top命令类似，iotop也支持以下几个交互按键。

left和right方向键：改变排序。r：反向排序。o：切换至选项--only。p：切换至--processes选项。a：切换至--accumulated选项。q：退出。i：改变线程的优先级。