姓名:張昊楠? ?學(xué)號(hào):21021210691
創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供巍山網(wǎng)站建設(shè)、巍山做網(wǎng)站、巍山網(wǎng)站設(shè)計(jì)、巍山網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、巍山企業(yè)網(wǎng)站模板建站服務(wù),十多年巍山做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。
存儲(chǔ)NAS 文件操作
df -h查看空間使用情況
警惕超大 nohup.out
ls? ?當(dāng)前路徑下的文件列表
pwd? 查看當(dāng)前路徑
cd? ? 進(jìn)入某個(gè)文件夾
任務(wù)提交
任務(wù)提交前
qhost--查看集群負(fù)載狀態(tài)
qsub / qsub-sge.pl--提交任務(wù)
qstat--查看任務(wù)狀態(tài)
qdel / qmod--任務(wù)控制
任務(wù)查看
qhost -j---列出所有用戶在每個(gè)節(jié)點(diǎn)上的任務(wù)
qhost -q---列出每個(gè)節(jié)點(diǎn)上每個(gè)隊(duì)列的任務(wù)數(shù)
qhost -u username---列出某個(gè)用戶在每個(gè)節(jié)點(diǎn)上的任務(wù)
提交命令
qsub -cwd -q queue.q test.sh
qsub-sge.pl --maxproc 50 --resource vf=5G --queue queue.q test.sh
任務(wù)查看2
qstat -u username---查看某個(gè)用戶的任務(wù)
qstat -u *,---查看所有用戶的任務(wù)
qstat –j jobs_ID---查看某個(gè)任務(wù)的詳細(xì)信息
查看.e和.o文件
.e:錯(cuò)誤信息
.o:標(biāo)準(zhǔn)輸出
任務(wù)控制
qdel jobID---刪除某個(gè)任務(wù)
qdel -u username---刪除某個(gè)用戶的所有任務(wù)
qmod -s jobID--掛起某個(gè)任務(wù)
qmod -us jobID---繼續(xù)運(yùn)行某個(gè)掛起的任務(wù)
按任務(wù)占用內(nèi)存大小選擇相應(yīng)的隊(duì)列
查看隊(duì)列 qstat -g c
QUEUE
PE.q--并行
cloud.q--云平臺(tái)
general.q--96G節(jié)點(diǎn)
middle.q--96G節(jié)點(diǎn)
great.q--大內(nèi)存節(jié)點(diǎn)
plus.q--大內(nèi)存節(jié)點(diǎn)
single.q--Trinity組裝
single._p.q---Trinity組裝(占用內(nèi)存較大)
存儲(chǔ)NAS 文件操作
df -h查看空間使用情況
警惕超大 nohup.out
任務(wù)提交
任務(wù)提交前
qhost--查看集群負(fù)載狀態(tài)
qsub / qsub-sge.pl--提交任務(wù)
qstat--查看任務(wù)狀態(tài)
qdel / qmod--任務(wù)控制
任務(wù)查看
qhost -j---列出所有用戶在每個(gè)節(jié)點(diǎn)上的任務(wù)
qhost -q---列出每個(gè)節(jié)點(diǎn)上每個(gè)隊(duì)列的任務(wù)數(shù)
qhost -u username---列出某個(gè)用戶在每個(gè)節(jié)點(diǎn)上的任務(wù)
提交命令
qsub -cwd -q queue.q test.sh
qsub-sge.pl --maxproc 50 --resource vf=5G --queue queue.q test.sh
任務(wù)查看2
qstat -u username---查看某個(gè)用戶的任務(wù)
qstat -u *,---查看所有用戶的任務(wù)
qstat –j jobs_ID---查看某個(gè)任務(wù)的詳細(xì)信息
查看.e和.o文件
.e:錯(cuò)誤信息
.o:標(biāo)準(zhǔn)輸出
任務(wù)控制
qdel jobID---刪除某個(gè)任務(wù)
qdel -u username---刪除某個(gè)用戶的所有任務(wù)
qmod -s jobID--掛起某個(gè)任務(wù)
qmod -us jobID---繼續(xù)運(yùn)行某個(gè)掛起的任務(wù)
按任務(wù)占用內(nèi)存大小選擇相應(yīng)的隊(duì)列
查看隊(duì)列 qstat -g c
QUEUE
PE.q--并行
cloud.q--云平臺(tái)
general.q--96G節(jié)點(diǎn)
middle.q--96G節(jié)點(diǎn)
great.q--大內(nèi)存節(jié)點(diǎn)
plus.q--大內(nèi)存節(jié)點(diǎn)
single.q--Trinity組裝
single._p.q---Trinity組裝(占用內(nèi)存較大)
TOP監(jiān)視
編輯于 2017-04-21
本文介紹在Linux HA集群中的仲裁和分區(qū)概念。
集群正常工作時(shí),所有節(jié)點(diǎn)都在一個(gè)分區(qū)內(nèi)(partition),分區(qū)內(nèi)的所有節(jié)點(diǎn)將選舉出一個(gè)仲裁節(jié)點(diǎn),這個(gè)仲裁節(jié)點(diǎn)負(fù)責(zé)向其他節(jié)點(diǎn)發(fā)送集群控制命令。當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),集群中的節(jié)點(diǎn)發(fā)現(xiàn)無法和仲裁節(jié)點(diǎn)通信,則會(huì)在可通信的范圍內(nèi)重新選舉一個(gè)新的仲裁節(jié)點(diǎn)。此時(shí)集群內(nèi)可能出現(xiàn)多個(gè)仲裁節(jié)點(diǎn),每個(gè)仲裁節(jié)點(diǎn)的管理范圍為一個(gè)分區(qū)。
下文中將通過防火墻策略的設(shè)置模擬集群網(wǎng)絡(luò)中通信出現(xiàn)異常的各種情況,如:
通過防火墻策略可以精準(zhǔn)控制兩兩節(jié)點(diǎn)之間的連通性,使我們能更準(zhǔn)確的了解在網(wǎng)絡(luò)連通性發(fā)生變化對(duì)集群的影響。
在所有節(jié)點(diǎn)上啟動(dòng)防火墻,并添加策略對(duì)整個(gè)管理網(wǎng)絡(luò)192.168.56.0/24放通。
保存上述策略,之后在實(shí)驗(yàn)過程會(huì)使用iptables命名加入新策略模擬網(wǎng)絡(luò)通信異常效果,如果需要恢復(fù)網(wǎng)絡(luò)通信正常狀態(tài),直接不保存策略重啟firewalld服務(wù)即可。
通過pcs status查看集群狀態(tài):
上述結(jié)果顯示當(dāng)前集群只有一個(gè)分區(qū),分區(qū)內(nèi)的節(jié)點(diǎn)包括全部3臺(tái)主機(jī),仲裁節(jié)點(diǎn)是ha-host3,這表示集群間的通信是完好的。下圖顯示當(dāng)前集群狀態(tài):
在ha-host1上添加以下策略:
該策略將使得ha-host1和ha-host3之間的通信中斷,在所有節(jié)點(diǎn)上查看集群狀態(tài):
上面的結(jié)果顯示,ha-host1失去和當(dāng)前仲裁節(jié)點(diǎn)ha-host3的聯(lián)系之后,和ha-host2一起組成新的分區(qū)并選舉出ha-host2作為新的仲裁節(jié)點(diǎn)。有趣的是ha-host2和ha-host3的通信并未中斷,但是他被“優(yōu)先級(jí)較高的ha-host1搶走并推舉為老大”,剩下ha-host3獨(dú)自留在其自身所在的分區(qū)。此時(shí)ha-host3所在的分區(qū)提示了“partition WITHOUT quorum”,表示該分區(qū)中的節(jié)點(diǎn)數(shù)目不超過一半。
下圖顯示當(dāng)前集群狀態(tài):
在ha-host1上再添加策略:
使其和當(dāng)前的仲裁節(jié)點(diǎn)ha-host2的通信中斷,集群狀態(tài)變?yōu)椋?/p>
發(fā)現(xiàn)ha-host2和ha-host3一起組成了新的分區(qū),由于ha-host1所在分區(qū)節(jié)點(diǎn)數(shù)不足一半,無法啟動(dòng)資源,虛擬ip資源vip被切換到了ha-host2上。下圖顯示當(dāng)前集群狀態(tài):
如果再把ha-host2和ha-host3直接的通信中斷,此時(shí)3個(gè)節(jié)點(diǎn)間兩兩均無法通信。每個(gè)節(jié)點(diǎn)都是一個(gè)分區(qū),每個(gè)分區(qū)的主機(jī)數(shù)均不過半,因此無法啟動(dòng)任何資源,原先運(yùn)行在ha-host2上的vip也停止了。
當(dāng)前集群狀態(tài)如下圖: