自動(dòng)殺死Unix僵死的進(jìn)程
人保系統(tǒng)的計(jì)算機(jī)應(yīng)用,已從單機(jī)運(yùn)行方式過渡到以市公司為中心的集中處理方式,各縣級(jí)支公司通過廣域網(wǎng),遠(yuǎn)程Telnet登錄到市公司主機(jī)。由于網(wǎng)絡(luò)的原因,有些進(jìn)程會(huì)突然僵死,導(dǎo)致消耗系統(tǒng)大量的資源,直接影響機(jī)器的正常運(yùn)行。當(dāng)用戶發(fā)現(xiàn)系統(tǒng)速度慢得無(wú)法忍受時(shí),請(qǐng)求系統(tǒng)管理員解決,系統(tǒng)管理員要手工查找僵死的進(jìn)程,一一殺之。為了實(shí)時(shí)地、自動(dòng)地殺死這些僵死的進(jìn)程,本人編寫了 Shell程序Autokill,以下是Autokill程序腳本: # # autokill # ps -ef | awk ‘{ print $1,$2,$7,$8 }' | awk ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }' | awk ‘!/root/ { print “kill -9 ” $2}' > /tmp/k_kill chmod 777 /tmp/k_kill /tmp/k_kill 現(xiàn)在對(duì)Autokill程序加以解釋。 首先,用Unix 命令 ps -ef 查看進(jìn)程狀態(tài),通過管道傳送給 AWK 進(jìn)行處理。 在第一個(gè) AWK 中,獲取進(jìn)程的用戶標(biāo)識(shí)(UID)、進(jìn)程號(hào)(PID)、進(jìn)程占用CPU時(shí)間(Time)、進(jìn)程執(zhí)行命令(CMD)四個(gè)字段的值。 在第二個(gè)AWK 中,通過模式匹配,選取所有匹配模式的行。在AWK 中,[0-9]匹配0~9中任一個(gè)數(shù)字,[1-9]匹配1~9中任何一個(gè)數(shù)字,連用兩個(gè)[0-9][0-9]則匹配一個(gè)任意兩位數(shù),因此[0-9][0-9]:[0-9][0-9]:[1-9][0-9]則匹配 Time 時(shí)間字段值,查找占用 CPU 時(shí)間超過 10 秒的進(jìn)程,如果要查找占用 CPU 時(shí)間超過半小時(shí)的進(jìn)程,則把模式改成 [0-9][0-9]:[3-9][0-9]:[0-9][0-9]。 在第三個(gè) AWK 中,用 “!/root/ ”過濾掉由 root用戶生成的進(jìn)程,并進(jìn)行Shell語(yǔ)言拼裝,將最終結(jié)果定向到文件 /tmp/k_kill。在 /tmp/k_kill 文件中,都是形如 kill -9123 的Shell命令。 在Autokill程序的最后,執(zhí)行 /tmp/k_kill 殺死進(jìn)程。 Autokill程序采用了管道處理方式,如要查看中間結(jié)果,則可以依次斷開管道。 第一步執(zhí)行: ps -ef 第二步執(zhí)行: ps -ef | AWK ‘{ print $1,$2,$7,$8 }' 第三步執(zhí)行: ps -ef | AWK ‘{ print $1,$2,$7,$8 }' | AWK ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }' 第四步執(zhí)行: ps -ef | AWK ‘{ print $1,$2,$7,$8 }' | AWK ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }' | AWK ‘!/root/ { print “kill -9 ” $2}' > /tmp/k_kill 最終查看 /tmp/k_kill 文件。 再有,如只想自動(dòng)殺死由某一用戶執(zhí)行的進(jìn)程(如jdc3206),只要將模式“!/root/”改成 “/jdc3206/”即可;如只想殺死執(zhí)行某一命令的進(jìn)程(如 xinmu ),只要將模式“!/root/” 改成“/xinmu/”即可。 最后用 crontab -e 增加一個(gè) cron 作業(yè)。 0,30 /tmp/autokill 經(jīng)過以上步驟,系統(tǒng)每隔半小時(shí)執(zhí)行一次/tmp/autokill。但在Unix系統(tǒng)中,有些僵死的進(jìn)程會(huì)莫名其妙地不能用 kill 命令殺死,這就需要重新引導(dǎo)機(jī)器,一方面清除系統(tǒng)垃圾,另一方面需要對(duì)資源重新分配。采用中心運(yùn)行模式,機(jī)器不能隨意開關(guān)機(jī),總要等到夜晚沒有用戶使用機(jī)器時(shí),才能重新開關(guān)機(jī),為了一次開關(guān)機(jī),都要加班。為此編寫一個(gè)Shell程序,讓機(jī)器自動(dòng)開關(guān)機(jī)。以下是Autoreboot 程序腳本。 # # autoreboot # PATH=/bin:/etc:/usr/bin:/tcb/bin:/usr/informix/bin INFORMIXDIR=/usr/informix INFORMIXSERVER=da3206a ONCONFIG=onconfig.yca export PATH INFORMIXDIR INFORMIXSERVER ONCONFIG onmode -ky sync sync reboot Autoreboot程序前 5 行,是設(shè)置Informix系統(tǒng)環(huán)境,命令onmode -ky是關(guān)閉Informix Online數(shù)據(jù)庫(kù),命令sync是Unix 文件系統(tǒng)超級(jí)塊回寫,命令 reboot 是Unix系統(tǒng)中的系統(tǒng)重新啟動(dòng)命令。 用crontab -e命令,增加一行 cron 作業(yè)。 30 6 /tmp/auto_boot 該命令使系統(tǒng)每天6:30 重新開關(guān)機(jī)。如果使用的雙機(jī)系統(tǒng),則要在兩臺(tái)機(jī)器上都要進(jìn)行重新開關(guān)機(jī),時(shí)間定為一致。
相關(guān)文章:
