Linux系统与性能监控

　　1. 性能监控介绍

　　性能优化是找出系统的瓶颈并优化操作系统来消除这些瓶颈的过程。许多系统管理员认为性能优化可以通过阅读cook book，设置一些内核参数就可以简单解决，但事实并非如此。性能优化是实现各个子系统之间性能平衡。这些子系统包括

　　CPU

　　内存

　　I/O

　　网络

　　这些子系统是高度相互依赖的。其中任何一个子系统的高负载都很容易导致其他子系统出现问题。比如

　　大量的页面调入I/O请求会使内存队列堵塞

　　全负荷的网卡会使CPU繁忙

　　维护闲置内存队列会使CPU繁忙

　　大量的内存写入硬盘的请求会使CPU和I/O通道繁忙

　　为了做修改来优化系统，必须找到出现瓶颈的地方。有时候某个子系统看似出现了问题，其实有可能是其他子系统的超负载造成的。

　　1.1 确定应用类型

　　为了知道从何处着手优化瓶颈，第一要点是理解要分析的系统的特点。一般系统的应用程序堆栈分为两种类型:

　　I/O约束的。I/O约束的应用需要大量使用内存和其他存储设备。原因是I/O约束的应用处理大量的数据(在内存中)，但不需要太多的CPU和网络资源(除非是使用网络上的存储设备)。I/O约束的应用使用CPU来处理I/O请求，然后一般会进入休眠状态。数据库类型的应用一般都是I/O约束的。

　　CPU约束的。CPU约束的应用需要使用大量的CPU，来批处理或者数学计算。大容量的网站服务器，邮件服务器和其他类型的服务器一般都是CPU约束的。

　　1.2 确定统计基准

　　系统利用效率取决于管理员的经验和系统的规格。确认系统是否有性能问题的唯一途径是了解系统应该优化成什么效果,哪些性能是应该实现的以及定量的参考量是什么。这就需要确立一个参考基准。这个基准统计应当是系统性能可承受的,这样才能与后来实现的性能做比较。

　　下面这个例子中,比较了系统的一个基准统计快照与高负荷时的快照

　　# vmstat 1

　　procs memory swap io system cpu

　　r b swpd free buff cache si so bi bo in cs us sy wa id

　　1 0 138592 17932 126272 214244 0 0 1 18 109 19 2 1 1 96

　　0 0 138592 17932 126272 214244 0 0 0 0 105 46 0 1 0 99

　　0 0 138592 17932 126272 214244 0 0 0 0 198 62 40 14 0 45

　　0 0 138592 17932 126272 214244 0 0 0 0 117 49 0 0 0 100

　　0 0 138592 17924 126272 214244 0 0 0 176 220 938 3 4 13 80

　　0 0 138592 17924 126272 214244 0 0 0 0 358 1522 8 17 0 75

　　1 0 138592 17924 126272 214244 0 0 0 0 368 1447 4 24 0 72

　　0 0 138592 17924 126272 214244 0 0 0 0 352 1277 9 12 0 79

　　# vmstat 1

　　procs memory swap io system cpu

　　r b swpd free buff cache si so bi bo in cs us sy wa id

　　2 0 145940 17752 118600 215592 0 1 1 18 109 19 2 1 1 96

　　2 0 145940 15856 118604 215652 0 0 0 468 789 108 86 14 0 0

　　3 0 146208 13884 118600 214640 0 360 0 360 498 71 91 9 0 0

　　2 0 146388 13764 118600 213788 0 340 0 340 672 41 87 13 0 0

　　2 0 147092 13788 118600 212452 0 740 0 1324 620 61 92 8 0 0

　　2 0 147360 13848 118600 211580 0 720 0 720 690 41 96 4 0 0

　　2 0 147912 13744 118192 210592 0 720 0 720 605 44 95 5 0 0

　　2 0 148452 13900 118192 209260 0 372 0 372 639 45 81 19 0 0

　　2 0 149132 13692 117824 208412 0 372 0 372 457 47 90 10 0 0

　　比较一下最后一列的数字,其代表了CPU的空闲时间比,我们可以看到,在基准统计下,CPU的空闲时间占70%-90%。在第二次输出中,系统百分之百运行而没有空闲。由此我们可以确定系统的CPU是否被充分利用。

内容来源：