在AIX下怎么查看到底是什么进程的磁盘IO高？

laxila 2013-06-24 02:52:07

在AIX下怎么查看到底是什么进程的磁盘IO高？

...全文

3594 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

wzhgdut 2013-09-11

打赏
举报

回复

通过topas 结合iostat一起查看

gy131417 2013-08-10

打赏
举报

回复

iostat System configuration: lcpu=16 drives=4 paths=3 vdisks=0 tty: tin tout avg-cpu: % user % sys % idle % iowait 0.0 15.9 2.0 1.0 96.2 0.8 Disks: % tm_act Kbps tps Kb_read Kb_wrtn hdisk0 0.4 44.3 1.1 22427648 195301519 hdisk1 0.4 39.2 1.1 45122464 147415983 hdisk2 8.8 257.7 25.3 801857929 464362335 cd0 0.0 0.0 0.0 0 0

rendelei 2013-08-05

打赏
举报

回复

通过topas 结合iostat一起查看

过年回家 2013-07-03

打赏
举报

回复

filemon

空的 2013-06-25

打赏
举报

回复

topas -P 看看，里面有个i/o

AIX常用命令：//查看机器序列号,IBM的基本信息都可以通过该命令查询得到 #prtconf #oslevel -r == uname -a //操作系统版本 #oslevel //查看操作系统版本ex :5.1.0.0 #oslevel -r //ex:5100-04 == oslevel -q //双机软件版本号 # lslpp -l|grep cluster //显示graphic display # lsdisp //查看CPU的个数 # bindprocessor -q //查看CPU的主频,操作系统版本最低是AIX 5.1,包含在软件包bos.pmapi.pmsvcs pmcycles This machine runs at 1500MHz //显示cpu的主频是1.5G #如何查找根文件系统(/)中的大文件 find -xdev -size +xxxx -ls #查找根卷组下大于2M的文件, 并根据文件大小排序, 大文件在前. find / -xdev -size +1024 -ls |sort -r +6 8277 624 -r-xr-xr-x 1 root system 635390 Jul 31 2003 /sbin/helpers/jfs2/fsck 28 596 -rw-r--r-- 1 root system 609388 Apr 12 17:25 /smit.log 30 1660 -rw-r--r-- 1 root system 3338083 Apr 5 14:08 /core #查看备份磁带中备份文件的大小 tcopy /dev/rmt0 tcopy: Tape File: 1; Records: 1 to 251; Size: 2097152. ---磁带机文件头大小 tcopy: Tape File: 1; Record: 252; Size 344064. ---磁带机文件头大小 tcopy: File: 1; End of File after: 252 Records, 526729216 Bytes. ---文件大小 tcopy: The end of the tape is reached. tcopy: The total tape length is 526729216 bytes. #如何取定文件与文件集的对应关系,有时想使用某个安装文件, 但没有安装包含该文件的文件集,找到文件集来安装所需文件首先确认系统中已经安装了“bos.content_list”文件集(fileset), 如果没有安装, 请使用smitty installp进行安装. 运行which_fileset命令, 根据文件查找对应的文件集. 例如: #which_fileset iostat /usr/bin/iostat bos.acct 5.1.0.0 运行lslpp -f 命令, 查看指定文件集中包含的文件: #lslpp -f bos.acct //出于AIX系统安全考虑, 需要使某些用户只能在控制台登录使用,而不允许远程登陆使用. 更改/etc/security/user 文件中需要限制的用户的rlogin属性(rlogin = false) 当再次尝试远程登录时, 系统报错:Remote logins are not allowed for this account, 表示修改成功 //如何自动logout用户有的用户登录后就长时间空闲,有可能导致安全上的问题,通过打开 /etc/profile 中 TMOUT 注释,将在设置的时间到达后自动logout用户例如: export TMOUT=120 那么, 用户两分钟没有击键,将自动logout //AIX系统中如何限制用户所使用文件的大小(AIX小型机有大文件限制) >#smit chuser 在菜单上选择要控制的用户, 并修改下面两项: Soft FILE size [aaa] Hard FILE size [aaa] 则修改后用户的文件大小最大为aaa×512 bytes. >如何验证? 可以用该用户登录系统, 使用命令“ulimit -f”和“ulimit -Hf”可分别显示其fsize,fsize_hard的大

第1章 AIX系统管理日常工作(检查篇) 1 1.1 常用的命令 1 1.2 语法介绍 1 1.2.1 vmstat：检查内存、CPU、进程状态 1 1.2.2 sar：检查CPU、IO 2 1.2.3 PS：检查进程状态命令 3 1.2.4 svmon：显示进程占用内存 3 1.2.5 iostat：显示磁盘IO 4 1.2.6 netstat, entstat：显示网卡信息 4 1.2.7 no：显示tcpip参数设置 5 1.2.8 其它命令 5 第2章 AIX系统管理日常工作(LV篇) 6 2.1 IBM AIX系统管理的日常工作 6 2.1.1 开关机步骤 6 2.1.2 用户组及用户管理 6 2.1.3 文件系统维护 6 2.1.4 系统日常管理 7 2.1.5 系统备份 7 2.1.6 定时清洗磁带机 7 2.1.7 定时检查设备指示灯状态 7 2.1.8 简单故障的判断 7 2.1.9 熟悉ibm aix操作系统 7 2.2 关于IBM AIX的逻辑卷管理 7 2.3 LVM命令 8 第3章 AIX系统管理日常工作(关键参数检查篇) 10 3.1 AIO参数检查 10 3.2 磁盘阵列QUEUE_DEPTH参数检查 11 3.3 用户参数检查 11 3.4 激活SSA FAST-WRITE CACHE 12 3.5 IO参数设置 12 3.6 SYNCD DAEMON的数据刷新频率 12 3.7 检查系统硬盘的镜像 12 第4章 AIX系统管理日常工作（性能分析篇） 13 4.1 性能瓶颈定义 13 4.2 性能范围 14 第5章 AIX系统管理日常工作(SHUTDOWN篇) 14 5.1 概念 14 5.2 关机命令 14 第6章 AIX系统管理日常工作（备份与恢复篇） 15 6.1 用SMIT备份 15 6.2 手工备份 15 6.3 恢复系统 15 第7章 HACMP的双机系统的管理和维护 15 7.1 HACMP 双机系统的启动 15 7.2 HACMP 双机系统的关闭 16 7.3 察看双机系统的当前状态 16 7.4 HACMP环境下的排错 17 7.4.1 了解问题的存在 17 7.4.2 判断问题的出处 18

WGCLOUD-v2.3.5 Wgcloud是基于Java语言的分布式监视平台。其核心模块包括：服务器群集监视，ES群集监视，CPU监视，内存监视，数据监视（mysql，oracle，pg），服务心跳检测，应用程序进程管理，磁盘IO监视，系统负载监视，监视警报信息推送。 1.采用服务器与客户端的协同工作模式，更轻便，更高效，可支持数百台服务器的在线监控。 2.服务器负责接收数据，处理数据并生成图表。代理方负责定期报告指标数据。 3.支持主流服务器平台的安装和部署，例如Linux，Windows，Solaris，AIX，HP-UX等。 4.在安装包中（注意：不在仓库中），单击下面的下载链接以下载安装包。下载后，将其解压缩。在wgcloud agent / lib文件夹中。下载演示版运行环境 1.JDK1.8 3.mysql5.6或5.7

10 服务器监控使用命令来显示 Unix 服务器的高 CPU 资源占用会话。top 显示每个 CPU 的使用情况。 top 的输出分两部分。第一部分显示每个处理器的负载情况，第二部分显示使用 CPU 最多的会话信息。 # top load averages: 0.23, 0.53, 0.49 64 processes: 1 running, 21 sleeping, 42 idle CPU states: 7.5% user, 0.0% nice, 2.9% system, 89.4% idle Memory: Real: 772M/991M act/tot Virtual: 1965M use/tot Free: 15M PID USERNAME PRI NICE SIZE RES STATE TIME CPU COMMAND 837 afis 42 0 34M 29M sleep 128:39 11.70% unixsvr 824 afis 44 0 10M 1826K sleep 26:40 0.70% dtterm 5121 oracle 42 0 435M 15M sleep 0:01 0.60% oracle 717 root 44 0 10M 4358K sleep 13:43 0.30% Xdec 5120 root 44 0 5832K 3203K run 0:00 0.10% top 558 root 44 0 3640K 180K sleep 34:13 0.00% os_mibs 715 root 42 0 18M 11M sleep 0:02 0.00% smsd 775 afis 44 0 11M 1843K sleep 0:01 0.00% dtsession 5117 afis 54 10 8248K 565K sleep 0:00 0.00% dtscreen 5097 oracle 44 0 423M 3465K sleep 0:00 0.00% oracle 5101 oracle 44 0 427M 2793K sleep 0:00 0.00% oracle 5105 oracle 44 0 421M 2621K sleep 0:00 0.00% oracle 5103 oracle 44 0 421M 2138K sleep 0:00 0.00% oracle 562 root 44 0 2960K 851K sleep 0:00 0.00% cpq_mibs 5055 root 44 0 1936K 303K sleep 0:00 0.00% telnetd 作为一个 DBA 应该关心的内容有： Load averages：平均负载。如果大于 1 说明服务器负荷过重。 CPU states：CPU 信息概要。7.5% user 的意思是 CPU 有 7.5%是用户占用，其他可按字面类推。 Memory：Free 表明可用的内存数量。本例子中可用内存是 15M。 IDLE：CPU 空闲百分比 2. 使用 sar sar 在 SVR4 环境中，例如 HP-UX、Solaris 中很普及，在 aix 中也可以用。Sar 命令可以查看整体 CPU 消耗情况，磁盘、内存、JFS buffer 使用情况等。常见的 sar 使用例子： sar -u 显示 CPU 活动情况。例如： # sar -u 2 5 AIX TSXJ 2 5 0052E51D4C00 10/09/06 System Configuration: lcpu=2 16:12:10 %usr %sys %wio %idle 16:12:12 100 0 0 0 16:12:14 99 1 0 0 16:12:16 99 0 0 0 16:12:18 41 1 26 31 16:12:20 46 1 0 53 Average 77 1 5 17 上面的命令每 2 秒显示一次 cpu 情况，显示 5 次。 sar -w 显示交换(swapping)活动。例如 5 秒钟显示一次，显示 5 次： # sar -w 5 5 HP-UX corp-hp1 B.11.00 U 9000/800 08/09/00 19:37:57 swpin/s bswin/s swpot/s bswot/s pswch/s 19:38:02 0.00 0.0 0.00 19:38:07 0.00 0.0 0.00 … 0.0 222 0.0 314 Average 0.00 0.0 0.00 0.0 294 上面的输出列的含义： swpin/s 每秒钟交换进（sawp-in）的进程数量 swpot/s 每秒钟交换出（sawp-out）的进程数量 bswin/s 每秒钟交换进的块数(每块512字节) bswot/s 每秒钟交换出的块数（每块512字节） pswch/s 每秒钟上下文交换数量 sar -b 显示 buffer 活动情况 # sar -b 1 6 HP-UX corp-hp1 B.11.00 U 9000/800 08/09/00 19:44:53 lread/s %rcache bwrit/s lwrit/s... 19:44:54 91 100 9 19... 19:44:55 0 0 0 5... 19:44:56 6 100 9 8... 19:44:57 30 100 9 20... 19:44:58 1 100 0 3... 19:44:59 1 100 9 4... Average 22 100 6 10... %wcache pread/s pwrit/s... 53 0 0... 100 0 0... 0 0 0... 55 0 0... 100 0 0... 0 0 0... 39 0 0... 各个列的含义： lread/s Number of reads per second from the Unix JFS buffer cache %rcache Buffer cache hit ratio (for the Unix JFS buffer cache) for read requests bwrit/s Number of physical writes to disk per second lwrit/s Number of writes per second to the Unix JFS buffer cache %wcache Buffer cache hit ratio (for the Unix JFS buffer cache) for write requests pread/s Number of reads per second from disk pwrit/s Number of writes per second to disk 3. 使用 vmstat vmstat 是通用的 UNIX 监控工具，vmstat 在 IRIX 操作系统中是 osview。vmstat 的第一个参数是间隔的秒数，也可以带第二个参数，表明显示多少次。vmstat 不同操作系统输出结果不一样，含义也可能有区别，具体要看 man 帮助。 # vmstat 3 kthr memory cpu ---- ... --------------- ... -------------- r b ... fre re pi sr ... cs us sy id wa 0 0 ... 207 0 1 0 ... 142 18 4 75 4 0 0 ... 187 0 4 0 ... 70 2 1 91 6 0 0 ... 184 0 0 0 ... 99 5 2 89 4 0 0 ... 165 0 0 0 ... 98 1 8 52 40 0 0 ... 150 0 3 0 ... 136 4 2 87 6 0 0 ... 141 0 1 0 ... 192 5 0 91 4 在 HP-UX 或 AIX 下 vmstat 输出中一些重要的信息： r 运行队列。当这个值超过CPU数量的时候，服务器就有CPU瓶颈（可以通过lsdev -C|grep Process|wc -l 来获取CPU数量） pi page-in数量。这个参数非0暗示着系统缺少内存，内存被交换到磁盘。然而当程序刚使用的时候也可能导致page-in非0。为了找到真正原因，则检查sr 列。如果sr也是非0，那么的确意味着缺少内存。 sr 扫描速率。如果扫描速率持续增加，那么页交换后台程序忙于分配内存页。下面是CPU的一些信息: us 用户占用CPU的百分比 sy 系统占用CPU的百分比 id 空闲CPU百分比 wa 等待CPU的百分比用户和系统百分比之和(us+sy)接近 100 时，说明 CPU 繁忙，但并不意味着 CPU 过载。sr 超过 CPU 数量的时候意味着 CPU 过载。当 CPU 等待(wa)超过 20 的时候，那么 20%或者更多的处理时间在等待资源，通常是 I/O。通常在备份或者导出等 I/O 操作的时候这个百分比比较大；但如果正常的时候这个值一直挺高则也可能有 I/O 瓶颈。 4. AIX 下显示交换区(Swap)使用情况 lsps -a 可用来显示交换使用情况。之前我们讨论过，Oracle 数据库在消耗过多的服务器内存的时候有可能产生很多交换，而 PGA 的内存需求引起内存移动到交换盘的操作。 # lsps -a Page Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv 上面%Used 是 1，说明有 1%的交换。 5. 显示 HP-UX 下的交换区使用情况 # swapinfo -tam Mb Mb Mb... TYPE AVAIL USED FREE... dev 1024 25 999... reserve – 999 -999... memory 3966 3547 419... total 4990 4571 419... ... PCT Mb ... USED RESERVE PRI NAME ... 2% 1 /dev/vg00/lvol2 ... ... 89% ... 92% 0 - 6. 显示服务器平均负载情况（w 命令）。 Unix 的 w 命令用来显示高资源会话简单的信息。大多数的有经验的 Oracle DBA 都会首先用这个命令来快速查看一下服务器负载情况，因为 w 命令在几乎所有的 Unix 下都可以用。 # w 10:02AM up 60 days, 18:46, 3 users, load average: 0.32, 0.39, 0.43 User tty login@ idle JCPU PCPU what Oracle pts/0 08:17AM 0 80:18 80:16 w oracle pts/1 09:15AM 5 2 0 ftp miltonrv pts/2 01May 009days 0 0 -ksh 上面的输出中的 load average 分别是过去 1 分钟、5 分钟、15 分钟的负载情况。如果大于 1 说明 CPU 紧张。 7. 使用 iostat iostat 显示物理磁盘 I/O 情况。下面的 3 表明 3 秒钟显示一次。 # iostat 3 System configuration: lcpu=2 disk=5 tty: tin tout avg-cpu: % user % sys % idle % iowait 0.0 1302.0 1.8 0.6 89.3 8.3 Disks: % tm_act Kbps tps Kb_read Kb_wrtn hdisk0 0.4 2.8 0.7 15919 15112048 dac0 0.0 0.8 0.2 643384 3730076 dac0-utm 0.0 0.0 0.0 0 0 hdisk1 0.0 0.8 0.2 643384 3730076 cd0 0.0 0.0 0.0 0 0 tty: tin tout avg-cpu: % user % sys % idle % iowait 0.3 3176.3 0.7 1.8 64.3 33.2 Disks: % tm_act Kbps tps Kb_read Kb_wrtn hdisk0 71.0 501.3 123.7 0 1504 dac0 0.0 0.0 0.0 0 0 dac0-utm 0.0 0.0 0.0 0 0 hdisk1 0.0 0.0 0.0 0 0 cd0 0.0 0.0 0.0 0 0 上面比较重要的列： Kb_read：过去的时间区间内读取得 K 字节数。（第一个显示的是历史总计，因此要看变化情况，应该看其它的时间区间。） Kb_wrtn: 过去的时间区间内写入得 K 字节数。

公司的一个生产应用发生异常，无法正常运行。当时应用系统异常后，登录主机发现/tmp文件系统写满了，删除了一些不用的文件后，应用正常，但df -k 查看后发现 /tmp 剩余空间仍然在不断增长，而且速度很快。看来没有找到...

1,194

社区成员

1,017

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章