[root@oldboy ~]# uptime
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名注冊(cè)、網(wǎng)站空間、營(yíng)銷軟件、網(wǎng)站建設(shè)、天臺(tái)網(wǎng)站維護(hù)、網(wǎng)站推廣。
11:45:25 up 5 days, 13:20, 3 users, load average: 0.00, 0.01, 0.05
uptime內(nèi)容顯示的內(nèi)容一次是系統(tǒng)時(shí)間,開機(jī)到現(xiàn)在的天數(shù),用戶登錄數(shù),以及平均負(fù)載。
核心是平均負(fù)載,其實(shí)就是【單位時(shí)間內(nèi)的活躍進(jìn)程數(shù)】。
2顆,單顆4核CPU為例:
1分鐘:10.00 #CPU處理進(jìn)程1分鐘的繁忙程度,忙碌1分鐘。
5分鐘:8.01 #CPU處理進(jìn)程5分鐘的繁忙程度,忙碌了5分鐘
15分鐘:5.05 #CPU處理進(jìn)程15分鐘的繁忙程度,忙碌持續(xù)15分鐘,15分鐘內(nèi)平均值5.
uptime:故障恢復(fù)了。
1分鐘:1.00 #CPU處理進(jìn)程1分鐘的繁忙程度,忙碌1分鐘。
5分鐘:8.01 #CPU處理進(jìn)程5分鐘的繁忙程度,忙碌了5分鐘
15分鐘:5.05 #CPU處理進(jìn)程15分鐘的繁忙程度,忙碌持續(xù)15分鐘,15分鐘內(nèi)平均值5.
==============================================
總結(jié):15分鐘負(fù)載值12,是高是低呢
負(fù)載數(shù)值/總的核心數(shù)=1 #開始慢的臨界點(diǎn),實(shí)際上1*70%==關(guān)注的臨界點(diǎn)。
12/8=1.2 大于1就說(shuō)明有問(wèn)題。
負(fù)載不要超過(guò)5,是臨界點(diǎn)。
2顆單顆4核CPU,共8核,負(fù)載就是8*70%=5左右。
需要關(guān)注負(fù)載的值:總的核心數(shù)*70%=關(guān)注的點(diǎn)
==================要掌握的============================
1.平均負(fù)載是運(yùn)行隊(duì)列中活躍的進(jìn)程數(shù)。
2.平均負(fù)載,1,5,15分鐘內(nèi)的負(fù)載。
3.需要關(guān)注負(fù)載的值:總的核心數(shù)*70%=關(guān)注的點(diǎn)
4.輔助top,ps,uptime,sar,mpstat,pidstat,iostat,排查問(wèn)題。
5.strace跟蹤進(jìn)程系統(tǒng)調(diào)用。
6.記住幾個(gè)案例(面試講故事)。
面試官問(wèn):
你在工作中遇到過(guò)哪些生產(chǎn)故障,是怎么解決的?
最好和數(shù)據(jù)庫(kù)相關(guān)(負(fù)載高),和web相關(guān)(PHP進(jìn)程100%,JAVA內(nèi)存泄漏)
==================要掌握的============================
***6.平均負(fù)載案例分析實(shí)戰(zhàn)\***
下面,我們以三個(gè)示例分別來(lái)看這三種情況,并用 stress、mpstat、pidstat 等工具,找出平均負(fù)載升高的根源。
stress 是 Linux 系統(tǒng)壓力測(cè)試工具,這里我們用作異常進(jìn)程模擬平均負(fù)載升高的場(chǎng)景。
mpstat 是多核 CPU 性能分析工具,用來(lái)實(shí)時(shí)查看每個(gè) CPU 的性能指標(biāo),以及所有 CPU 的平均指標(biāo)。
pidstat 是一個(gè)常用的進(jìn)程性能分析工具,用來(lái)實(shí)時(shí)查看進(jìn)程的 CPU、內(nèi)存、I/O 以及上下文切換等性能指標(biāo)。
#如果出現(xiàn)無(wú)法使用mpstat、pidstat命令查看%wait指標(biāo)建議更新下軟件包
yum install sysstats -y
yum install stress -y
stress --cpu 8 --io 4 --vm 2 --vm-bytes 128M --timeout 10s
***場(chǎng)景一:CPU 密集型進(jìn)程\***
1.首先,我們?cè)诘谝粋€(gè)終端運(yùn)行 stress 命令,模擬一個(gè) CPU 使用率 100% 的場(chǎng)景:
[root@oldboy ~]# stress --cpu 1 --timeout 600
2.接著,在第二個(gè)終端運(yùn)行 uptime 查看平均負(fù)載的變化情況
# 使用watch -d 參數(shù)表示高亮顯示變化的區(qū)域(注意負(fù)載會(huì)持續(xù)升高)
[root@oldboy ~]# watch -d uptime
*3.最后,在第三個(gè)終端運(yùn)行 mpstat 查看 CPU 使用率的變化情況*
# -P ALL 表示監(jiān)控所有CPU,后面數(shù)字5 表示間隔5秒后輸出一組數(shù)據(jù)
[root@oldboy ~]# mpstat -P ALL 5
#單核CPU,所以只有一個(gè)all和0
4.從終端二中可以看到,1 分鐘的平均負(fù)載會(huì)慢慢增加到 1.00,而從終端三中還可以看到,正好有一個(gè) CPU 的使用率為 100%,但它的 iowait 只有 0。這說(shuō)明,平均負(fù)載的升高正是由于 CPU 使用率為 100% 。那么,到底是哪個(gè)進(jìn)程導(dǎo)致了 CPU 使用率為 100% 呢?可以使用 pidstat 來(lái)查詢
![](18.Linux系統(tǒng)管理-進(jìn)程管理.assets/a.png)
# 間隔5秒輸出一組數(shù)據(jù)
[root@oldboy ~]# pidstat -u 5 1
#從這里可以明顯看到,stress進(jìn)程的CPU使用率為100%。
- 模擬cpu負(fù)載高 `stress --cpu 1 --timeout 100`
- 通過(guò)uptime或w 查看 `watch -d uptime`
- 查看整體狀態(tài)mpstat -P ALL 1 查看每個(gè)cpu核心使用率
- 精確到進(jìn)程: pidstat 1
****場(chǎng)景二:I/O 密集型進(jìn)程\****
1.首先還是運(yùn)行 stress 命令,但這次模擬 I/O 壓力,即不停地執(zhí)行 sync
[root@oldboy ~]# stress --io 1 --timeout 600s #利用sync()
stress --hdd 8 --hdd-bytes 1g # hd harkdisk 創(chuàng)建進(jìn)程去進(jìn)程寫
*2.然后在第二個(gè)終端運(yùn)行 uptime 查看平均負(fù)載的變化情況:*
[root@oldboy ~]# watch -d uptime
18:43:51 up 2 days, 4:27, 3 users, load average: 1.12, 0.65, 0.00
*3.最后第三個(gè)終端運(yùn)行 mpstat 查看 CPU 使用率的變化情況:*
# 顯示所有 CPU 的指標(biāo),并在間隔 5 秒輸出一組數(shù)據(jù)
[root@oldboy ~]# mpstat -P ALL 5
#會(huì)發(fā)現(xiàn)cpu的與內(nèi)核打交道的sys占用非常高
*4.那么到底是哪個(gè)進(jìn)程,導(dǎo)致 iowait 這么高呢?我們還是用 pidstat 來(lái)查詢*
# 間隔5秒后輸出一組數(shù)據(jù),-u 表示CPU指標(biāo)
[root@oldboy ~]# pidstat -u 5 1
#可以發(fā)現(xiàn),還是 stress 進(jìn)程導(dǎo)致的。
- 通過(guò)stress 模擬大量進(jìn)程讀寫 `stress --hdd 4 `
- 通過(guò)w/uptime查看系統(tǒng)負(fù)載信息 `watch -d uptime`
- 通過(guò)top/mpstat 排查 `mpstat -P ALL 1 或 top 按1`
- 確定是iowati `iostat 1查看整體磁盤讀寫情況 或iotop -o 查看具體哪個(gè)進(jìn)程讀寫`
- 根據(jù)對(duì)應(yīng)的進(jìn)程,進(jìn)行相關(guān)處理.
***場(chǎng)景三:大量進(jìn)程的場(chǎng)景 高并發(fā)場(chǎng)景 \***
*當(dāng)系統(tǒng)中運(yùn)行進(jìn)程超出 CPU 運(yùn)行能力時(shí),就會(huì)出現(xiàn)等待 CPU 的進(jìn)程。*
*1.首先,我們還是使用 stress,但這次模擬的是 4 個(gè)進(jìn)程*
[root@oldboy ~]# stress -c 4 --timeout 600
*2.由于系統(tǒng)只有 1 個(gè) CPU,明顯比 4 個(gè)進(jìn)程要少得多,因而,系統(tǒng)的 CPU 處于嚴(yán)重過(guò)載狀態(tài)*
*3.然后,再運(yùn)行 pidstat 來(lái)看一下進(jìn)程的情況:*
# 間隔5秒后輸出一組數(shù)據(jù)
[root@oldboy ~]# pidstat -u 5 1
*可以看出,4 個(gè)進(jìn)程在爭(zhēng)搶 1 個(gè) CPU,每個(gè)進(jìn)程等待 CPU 的時(shí)間(也就是代碼塊中的 %wait 列)高達(dá) 75%。這些超出 CPU 計(jì)算能力的進(jìn)程,最終導(dǎo)致 CPU 過(guò)載。*
****分析完這三個(gè)案例,我再來(lái)歸納一下平均負(fù)載與CPU\****
***平均負(fù)載提供了一個(gè)快速查看系統(tǒng)整體性能的手段,反映了整體的負(fù)載情況。但只看平均負(fù)載本身,我們并不能直接發(fā)現(xiàn),到底是哪里出現(xiàn)了瓶頸。所以,在理解平均負(fù)載時(shí),也要注意:
平均負(fù)載高有可能是 CPU 密集型進(jìn)程導(dǎo)致的;
平均負(fù)載高并不一定代表 CPU 使用率高,還有可能是 I/O 更繁忙了;
當(dāng)發(fā)現(xiàn)負(fù)載高的時(shí)候,你可以使用 mpstat、pidstat 等工具,輔助分析負(fù)載的來(lái)源****
**系統(tǒng)負(fù)載的計(jì)算和意義**
進(jìn)程以及子進(jìn)程和線程產(chǎn)生的計(jì)算指令都會(huì)讓cpu執(zhí)行,產(chǎn)生請(qǐng)求的這些進(jìn)程組成"運(yùn)行隊(duì)列",等待cpu執(zhí)行,這個(gè)隊(duì)列就是系統(tǒng)負(fù)載, 系統(tǒng)負(fù)載是所有cpu的運(yùn)行隊(duì)列的總和.
[root@oldboyedu ~]# w
20:25:48 up 95 days, 9:06, 1 user, load average: 2.92, 0.00, 0.00
//假設(shè)當(dāng)前計(jì)算機(jī)有4個(gè)核心的cpu,當(dāng)前的負(fù)載是2.92
cpu1 cpu2 cpu3 cpu4
2.94/4(個(gè)cpu核心) = 73%的cpu資源被使用,剩下27%的cpu計(jì)算資源是空想的
//假設(shè)當(dāng)前的計(jì)算有2個(gè)核心的cpu,當(dāng)前的負(fù)載是2.92
2.92/2 = 146% 已經(jīng)驗(yàn)證超過(guò)了cpu的處理能力
7. 日常故障排查流程(含日志)
- w/uptime, 查看負(fù)載
- ps aux/top 看看 cpu百分比, io wait或者是內(nèi)存占用的高? (三高 cpu,io,內(nèi)存)
- top檢查具體是哪個(gè)進(jìn)程,找出可疑進(jìn)程
- 追蹤這個(gè)進(jìn)程使用情況,做什么的?
- 看看對(duì)應(yīng)**日志**是否有異常
- 系統(tǒng)日志: /var/log/messages(系統(tǒng)通用日志) /var/log/secure(用戶登錄情況)
- 服務(wù)軟件的日志
***3.那平均負(fù)載為多少時(shí)合理\***
*最理想的狀態(tài)是每個(gè) CPU核心 上都剛好運(yùn)行著一個(gè)進(jìn)程,這樣每個(gè) CPU 都得到了充分利用。所以在評(píng)判平均負(fù)載時(shí),首先你要知道系統(tǒng)有幾個(gè) CPU核心,這可以通過(guò) top 命令獲取,或`grep 'model name' /proc/cpuinfo`*
系統(tǒng)平均負(fù)載被定義為在特定時(shí)間間隔內(nèi)運(yùn)行隊(duì)列中的平均進(jìn)程數(shù)。如果一個(gè)進(jìn)程滿足以下條件則其就會(huì)位于運(yùn)行隊(duì)列中:
- 它沒有在等待I/O操作的結(jié)果
- 它沒有主動(dòng)進(jìn)入等待狀態(tài)(也就是沒有調(diào)用'wait')
- 沒有被停止(例如:等待終止)
《內(nèi)容來(lái)自老男孩老師的課堂筆記》
你們知道怎么查看Linux中的硬件嗎,命令是什么?下面是我?guī)?lái)的關(guān)于linux查看硬件命令有哪些的內(nèi)容,歡迎閱讀!
Linux查看硬件命令一:
linux如何查看系統(tǒng)的硬件配置
如何在linux系統(tǒng)下查看系統(tǒng)配置? 在圖形模式下我們可以很方便的利用Linux的圖形工具,點(diǎn)擊幾下就可以查看到Linux系統(tǒng)的的硬件信息。但是大部分生產(chǎn)服務(wù)器系統(tǒng)為了節(jié)約系統(tǒng)資源是沒有安裝Xwindo服務(wù)的。所以我們?cè)趫D形模式下掌握查看系統(tǒng)硬件信息的方式是很
如何在linux系統(tǒng)下查看系統(tǒng)配置?
在圖形模式下我們可以很方便的利用Linux的圖形工具,點(diǎn)擊幾下就可以查看到Linux系統(tǒng)的的硬件信息。但是大部分生產(chǎn)服務(wù)器系統(tǒng)為了節(jié)約系統(tǒng)資源是沒有安裝Xwindo服務(wù)的。所以我們?cè)趫D形模式下掌握查看系統(tǒng)硬件信息的方式是很必要的。
linux下至今 沒有給出機(jī)器系統(tǒng)信息的命令或者是軟件(類似CPU—Z,everest等)。 要想查看系統(tǒng)的配置 具體的 方法 是:
1、系統(tǒng)硬件配置都在/proc 目錄里面
2、可以用命令查看里面的文件即可 比如:
cat /proc/ cpu info 查看cpu信息,processor 0 為一個(gè)U, 1為兩個(gè),flags超線程。
lspci 查看主板信息
free –m 查內(nèi)存 (total屬性下顯示的是內(nèi)存的大小)。
fidsk -l 查硬盤空間
df -h 查硬盤
du -sh 查看文件夾大小
top 這個(gè)比較全,內(nèi)存 進(jìn)程 負(fù)載 都有了。
uptime 查運(yùn)行時(shí)間 負(fù)載情況 等等的信息
Linux查看硬件命令二:
1,在linux下,有多種命令可以用于查看硬件信息:
用硬件檢測(cè)程序kuduz探測(cè)新硬件:service kudzu start ( or restart);
查看CPU信息:cat /proc/cpuinfo;
查看板卡信息:cat /proc/pci;
查看PCI信息:lspci (相比cat /proc/pci更直觀);
查看內(nèi)存信息:cat /proc/meminfo;
查看USB設(shè)備:cat /proc/bus/usb/devices;
查看鍵盤和鼠標(biāo):cat /proc/bus/input/devices;
查看系統(tǒng)硬盤信息和使用情況:fdisk disk – l df;
查看各設(shè)備的中斷請(qǐng)求(IRQ):cat /proc/interrupts;
查看啟動(dòng)硬件檢測(cè)信息日志:dmesg more /var/log/dmesg。
2,幾種查看Linux版本信息的方法:
uname -a;
cat /proc/version;
cat /etc/issue;
lsb_release -a;
cat /etc/redhat-release;
rpm -q redhat-release。
看了"linux查看硬件命令有哪些" 文章 內(nèi)容的人還看:
1. linux中查看硬件信息的方法有哪些
2. LINUX操作系統(tǒng)常用命令有哪些
3. linux操作系統(tǒng)版本查看命令
4. Linux top命令查看多核CPU每個(gè)核心的使用率
5. Linux中查看CPU的信息的方法是什么
6. Linux使用dmidecode命令查看內(nèi)存型號(hào)
7. 如何正確查看Linux機(jī)器內(nèi)存使用情況
8. Linux系統(tǒng)查看當(dāng)前時(shí)間的命令
9. Linux常用命令
10. 必學(xué)100個(gè)常用linux命令大全
多處理器可以被定義用來(lái)包含多個(gè)core的單個(gè)設(shè)備中同時(shí)運(yùn)行二個(gè)或多個(gè)指令。現(xiàn)在廣泛應(yīng)用于通用應(yīng)用處理器和嵌入式系統(tǒng)中。
openmp并行程序在多核linux上最大化使用cpu的方法如下:
#include?stdio.h
#include?stdlib.h
#include?omp.h
#include?time.h
int?main()
{
long?long?i;
long?double?sum?=?.0;
long?double?sec?=?.0;
//?Multi-thread?compute?start
clock_t?t1?=?clock();
#pragma?omp?parallel?for
for?(i?=?0;?i??1000000000;?i++)
{
sum?+=?i/100;
}
clock_t?t2?=?clock();
sec?=?(t2?-?t1);
//sec?=?(t2?-?t1);
printf("Program?costs?%.2Lf?clock?tick.\n",?sec);
exit(EXIT_SUCCESS);
}
以上代碼中,#pragma omp parallel for
這一行的作用即是調(diào)用openmp的功能,根據(jù)檢測(cè)到的CPU核心數(shù)目,將for (i = 0; i 1000000000; i++)這個(gè)循環(huán)執(zhí)行過(guò)程平均分配給每一個(gè)CPU核心。
去掉#pragma omp parallel for這行,則和普通的串行代碼效果一致。
注意,要使用openmp功能,在編譯的時(shí)候需要加上-fopenmp編譯參數(shù)。
以下是兩種編譯搭配兩種代碼出現(xiàn)的4種結(jié)果,可以很直觀地看到效果:
1、代碼里含有#pragma omp parallel for,編譯參數(shù)有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 50202611.00 clock tick.
2、代碼里含有#pragma omp parallel for,編譯參數(shù)沒有-fopenmp
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4068178.00 clock tick.
3、代碼里沒有#pragma omp parallel for,編譯參數(shù)有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4090744.00 clock tick.
4、代碼里沒有#pragma omp parallel for,編譯參數(shù)沒有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4170093.00 clock tick.
可以看出,只有在情況1下,openmp生效,其他3種情況下,均為單核運(yùn)行,2、3、4結(jié)果較為接近,而1的運(yùn)行結(jié)果大約相差25%。
值得注意的是,使用多核心的case 1竟然比單核的其他3種case慢了25%,原因是在這種單一的循環(huán)運(yùn)算中,并行分配CPU任務(wù)的指令比直接執(zhí)行下一個(gè)循環(huán)指令的效率更低。所以并不是用并行運(yùn)算就一定能夠提高運(yùn)算效率的,要根據(jù)實(shí)際情況來(lái)判斷。
linux下的單進(jìn)程多線程的程序,要實(shí)現(xiàn)每個(gè)線程平均分配到多核cpu,主要有2個(gè)方法
1:利用linux系統(tǒng)自己的線程切換機(jī)制,linux有一個(gè)服務(wù)叫做irqbalance,這個(gè)服務(wù)是linux系統(tǒng)自帶的,默認(rèn)會(huì)啟動(dòng),這個(gè)服務(wù)的作用就是把多線程平均分配到CPU的每個(gè)核上面,只要這個(gè)服務(wù)不停止,多線程分配就可以自己實(shí)現(xiàn)。但是要注意,如果線程函數(shù)內(nèi)部的有某個(gè)循環(huán),且該循環(huán)內(nèi)沒有任何系統(tǒng)調(diào)用的話,可能會(huì)導(dǎo)致這個(gè)線程的CPU時(shí)間無(wú)法被切換出去。也就是占滿CPU現(xiàn)象,此時(shí)加個(gè)系統(tǒng)調(diào)用,例如sleep,線程所占的CPU時(shí)間就可以切換出去了。
2:利用pthread庫(kù)自帶的線程親和性設(shè)置函數(shù),來(lái)設(shè)置線程在某個(gè)CPU核心上跑,這個(gè)需要在程序內(nèi)部實(shí)現(xiàn)。同時(shí)注意不要和進(jìn)程親和性設(shè)置搞混淆了
int?pthread_setaffinity_np(pthread_t?thread,?size_t?cpusetsize,
const?cpu_set_t?*cpuset);
int?pthread_getaffinity_np(pthread_t?thread,?size_t?cpusetsize,?
cpu_set_t?*cpuset);
從函數(shù)名以及參數(shù)名都很明了,唯一需要點(diǎn)解釋下的可能就是cpu_set_t這個(gè)結(jié)構(gòu)體了。這個(gè)結(jié)構(gòu)體的理解類似于select中的fd_set,可以理解為cpu集,也是通過(guò)約定好的宏來(lái)進(jìn)行清除、設(shè)置以及判斷:
//初始化,設(shè)為空
void?CPU_ZERO?(cpu_set_t?*set);?
//將某個(gè)cpu加入cpu集中?
void?CPU_SET?(int?cpu,?cpu_set_t?*set);?
//將某個(gè)cpu從cpu集中移出?
void?CPU_CLR?(int?cpu,?cpu_set_t?*set);?
//判斷某個(gè)cpu是否已在cpu集中設(shè)置了?
int?CPU_ISSET?(int?cpu,?const?cpu_set_t?*set);