Android Init進程對信號的處理流程
10多年專注成都網(wǎng)站制作,成都定制網(wǎng)站,個人網(wǎng)站制作服務(wù),為大家分享網(wǎng)站制作知識、方案,網(wǎng)站設(shè)計流程、步驟,成功服務(wù)上千家企業(yè)。為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù),專注于成都定制網(wǎng)站,高端網(wǎng)頁制作,對邊坡防護網(wǎng)等多個方面,擁有多年的網(wǎng)站維護經(jīng)驗。
在Android中,當(dāng)一個進程退出(exit())時,會向它的父進程發(fā)送一個SIGCHLD信號。父進程收到該信號后,會釋放分配給該子進程的系統(tǒng)資源;并且父進程需要調(diào)用wait()或waitpid()等待子進程結(jié)束。如果父進程沒有做這種處理,且父進程初始化時也沒有調(diào)用signal(SIGCHLD, SIG_IGN)來顯示忽略對SIGCHLD的處理,這時子進程將一直保持當(dāng)前的退出狀態(tài),不會完全退出。這樣的子進程不能被調(diào)度,所做的只是在進程列表中占據(jù)一個位置,保存了該進程的PID、終止?fàn)顟B(tài)、CPU使用時間等信息;我們將這種進程稱為“Zombie”進程,即僵尸進程。
在Linux中,設(shè)置僵尸進程的目的是維護子進程的一些信息,以供父進程后續(xù)查詢獲取。特殊的,如果一個父進程終止,那么它的所有僵尸子進程的父進程將被設(shè)置為Init進程(PID為1),并由Init進程負責(zé)回收這些僵尸進程(Init進程將wait()/waitpid()它們,并清除它們在進程列表中的信息)。
由于僵尸進程仍會在進程列表中占據(jù)一個位置,而Linux所支持的最大進程數(shù)量是有限的;超過這個界限值后,我們就無法創(chuàng)建進程。所以,我們有必要清理那些僵尸進程,以保證系統(tǒng)的正常運作。
接下來,我們分析下Init進程是如何處理SIGCHLD信號的。
在Init.cpp中,我們是通過signal_handler_init()來初始化SIGCHLD信號處理的:
void signal_handler_init() { // Create a signalling mechanism for SIGCHLD. int s[2]; //socketpair()創(chuàng)造一對未命名的、相互連接的UNIX域套接字 if (socketpair(AF_UNIX, SOCK_STREAM | SOCK_NONBLOCK | SOCK_CLOEXEC, 0, s) == -1) { ERROR("socketpair failed: %s\n", strerror(errno)); exit(1); } signal_write_fd = s[0]; signal_read_fd = s[1]; // Write to signal_write_fd if we catch SIGCHLD. struct sigaction act; memset(&act, 0, sizeof(act)); act.sa_handler = SIGCHLD_handler;//設(shè)置信號處理函數(shù)句柄,當(dāng)有信號產(chǎn)生時,會向上面創(chuàng)建的socket寫入數(shù)據(jù),epoll監(jiān)控到該socket對中的fd可讀時,就會調(diào)用注冊的函數(shù)去處理該事件 act.sa_flags = SA_NOCLDSTOP;//設(shè)置標志,表示只有當(dāng)子進程終止時才接受SIGCHID信號 sigaction(SIGCHLD, &act, 0);//初始化SIGCHLD信號處理方式 reap_any_outstanding_children();//處理這之前退出的子進程 register_epoll_handler(signal_read_fd, handle_signal); }
我們通過sigaction()函數(shù)來初始化信號。在act參數(shù)中,指定了信號處理函數(shù):SIGCHLD_handler();如果有信號到來,就會調(diào)用該函數(shù)處理;同時,在參數(shù)act中,我們還設(shè)置了SA_NOCLDSTOP標志,表示只有當(dāng)子進程終止時才接受SIGCHLD信號。
Linux中,信號是一種軟中斷,所以信號的到來會終止當(dāng)前進程正在處理的操作。所以,我們在注冊的信號處理函數(shù)中不要調(diào)一些不可重入的函數(shù)。并且,Linux不會對信號做排隊處理,在一個信號的處理期間不管再收到多少個信號,當(dāng)前信號處理完畢后,內(nèi)核也只會再發(fā)送一個信號給進程;所以這里就存在信號丟失的可能。為了避免丟失信號,我們注冊的信號處理函數(shù)操作應(yīng)該越高效、越快越好。
而我們處理SIGCHLD信號時,父進程會做等待操作,這個時間是比較長的。為了解決這個問題,上面的信號初始化代碼中創(chuàng)建了一對未命名且相關(guān)聯(lián)的本地socket用于線程間通信。注冊的信號處理函數(shù)是SIGCHLD_handler():
static void SIGCHLD_handler(int) { if (TEMP_FAILURE_RETRY(write(signal_write_fd, "1", 1)) == -1) { ERROR("write(signal_write_fd) failed: %s\n", strerror(errno)); } }
#define TEMP_FAILURE_RETRY(exp) \ ({ \ decltype(exp) _rc; \ do { \ _rc = (exp); \ } while (_rc == -1 && errno == EINTR); \ _rc; \ })
當(dāng)有信號到來時,只要向socket中寫入數(shù)據(jù),這個過程是很快的,此時信號的處理就轉(zhuǎn)移到socket的響應(yīng)中去進行了;這樣就不會影響下一個信號的處理。同時,write()函數(shù)外圍嵌套了一個do...while循環(huán),循環(huán)條件是write()發(fā)生錯誤且當(dāng)前的錯誤號為EINTR(EINTR :此調(diào)用被信號所中斷),即當(dāng)前write()是由于有中斷到來而發(fā)生錯誤時,操作將再次執(zhí)行;其他情況下,write()函數(shù)只會執(zhí)行一次。再初始化完信號處理后,就會調(diào)用reap_any_outstanding_children() 處理這之前的進程退出情況:
static void reap_any_outstanding_children() { while (wait_for_one_process()) { } }
wait_for_one_process()主要調(diào)用waitpid()等待子進程結(jié)束,當(dāng)該進程代表的服務(wù)需要重啟時,會對它做一些設(shè)置、清理工作。
最后,通過epoll_ctl()向epoll_fd注冊本地socket,監(jiān)聽其是否可讀;并注冊了epoll事件的處理函數(shù):
register_epoll_handler(signal_read_fd, handle_signal);
void register_epoll_handler(int fd, void (*fn)()) { epoll_event ev; ev.events = EPOLLIN;//對文件描述符可讀 ev.data.ptr = reinterpret_cast(fn);//保存指定的函數(shù)指針,用于后續(xù)的事件處理 if (epoll_ctl(epoll_fd, EPOLL_CTL_ADD, fd, &ev) == -1) {//向epoll_fd添加要監(jiān)聽的fd,比如property、keychord和signal事件監(jiān)聽 ERROR("epoll_ctl failed: %s\n", strerror(errno)); } }
我們以Zygote進程退出為例,來看下SIGCHLD信號處理的具體流程。Zygote進程在init.rc中被聲明為Service并由Init進程創(chuàng)建。當(dāng)Zygote進程退出時,將向Init進程發(fā)送SIGCHLD信號。前面的代碼已經(jīng)完成了信號的初始化操作,所以當(dāng)信號到來時會調(diào)用SIGCHLD_handler()函數(shù)處理,它的處理就是直接通過socket寫入一個數(shù)據(jù)就立刻返回;這時,SIGCHLD的處理就轉(zhuǎn)移到socket事件的響應(yīng)上。我們通過epoll_ctl注冊了本地socket,并監(jiān)聽它是否可讀;這時由于之前的write()調(diào)用,此時socket有數(shù)據(jù)可讀,此刻會調(diào)用注冊的handle_signal()函數(shù)進行處理:
static void handle_signal() { // Clear outstanding requests. char buf[32]; read(signal_read_fd, buf, sizeof(buf)); reap_any_outstanding_children(); }
它會將socket的數(shù)據(jù)的獨到buf中,并調(diào)用reap_any_outstanding_children()函數(shù)處理子進程的退出及服務(wù)的重啟操作:
static void reap_any_outstanding_children() { while (wait_for_one_process()) { } }
static bool wait_for_one_process() { int status; pid_t pid = TEMP_FAILURE_RETRY(waitpid(-1, &status, WNOHANG));//等待子進程結(jié)束,并獲取到它的pid進程號,WNOHANG表明若沒有進程結(jié)束,則立即返回. if (pid == 0) { return false; } else if (pid == -1) { ERROR("waitpid failed: %s\n", strerror(errno)); return false; } service* svc = service_find_by_pid(pid);//根據(jù)pid,在鏈表中找到這個服務(wù)信息 std::string name; if (svc) { name = android::base::StringPrintf("Service '%s' (pid %d)", svc->name, pid); } else { name = android::base::StringPrintf("Untracked pid %d", pid); } NOTICE("%s %s\n", name.c_str(), DescribeStatus(status).c_str()); if (!svc) { return true; } // TODO: all the code from here down should be a member function on service. //如果該服務(wù)進程沒有設(shè)定SVC_ONESHOT標志,或者設(shè)置了SVC_RESTART標志,則先殺掉當(dāng)前的進程,在重新創(chuàng)建新的進程; //以避免后面重啟進程時,因當(dāng)前服務(wù)進程已經(jīng)存在而發(fā)生錯誤. if (!(svc->flags & SVC_ONESHOT) || (svc->flags & SVC_RESTART)) { NOTICE("Service '%s' (pid %d) killing any children in process group\n", svc->name, pid); kill(-pid, SIGKILL); } // Remove any sockets we may have created. //如果之前為這個服務(wù)進程創(chuàng)建過socket,這時我們需要清除掉該socket for (socketinfo* si = svc->sockets; si; si = si->next) { char tmp[128]; snprintf(tmp, sizeof(tmp), ANDROID_SOCKET_DIR"/%s", si->name); unlink(tmp);//刪除這個socket設(shè)備文件 } if (svc->flags & SVC_EXEC) {////服務(wù)完全退出,清除掉所有信息,并將該服務(wù)從svc-slist中移除 INFO("SVC_EXEC pid %d finished...\n", svc->pid); waiting_for_exec = false; list_remove(&svc->slist); free(svc->name); free(svc); return true; } svc->pid = 0; svc->flags &= (~SVC_RUNNING); // Oneshot processes go into the disabled state on exit, // except when manually restarted. //如果該服務(wù)進程帶有SVC_ONESHOT標志,且沒有SVC_RESTART標志,則表明該服務(wù)無需重啟 if ((svc->flags & SVC_ONESHOT) && !(svc->flags & SVC_RESTART)) { svc->flags |= SVC_DISABLED; } // Disabled and reset processes do not get restarted automatically. //如果服務(wù)帶有SVC_RESET標志,表示服務(wù)無需重啟 if (svc->flags & (SVC_DISABLED | SVC_RESET)) {//從結(jié)果看SVC_RESET標志的判斷優(yōu)先級最高 svc->NotifyStateChange("stopped"); return true; } //到此,我們可以得知一個服務(wù)進程在init.rc中只要沒有聲明SVC_ONESHOT和SVC_RESET標志,當(dāng)該進程死亡時,就會被重啟; //但是,如果一個服務(wù)進程帶有SVC_CRITICAL標志,且沒有SVC_RESTART標志,當(dāng)它crash、重啟的次數(shù)超過4此時,系統(tǒng)會自動重啟并進入recovery模式 time_t now = gettime(); if ((svc->flags & SVC_CRITICAL) && !(svc->flags & SVC_RESTART)) { if (svc->time_crashed + CRITICAL_CRASH_WINDOW >= now) { if (++svc->nr_crashed > CRITICAL_CRASH_THRESHOLD) { ERROR("critical process '%s' exited %d times in %d minutes; " "rebooting into recovery mode\n", svc->name, CRITICAL_CRASH_THRESHOLD, CRITICAL_CRASH_WINDOW / 60); android_reboot(ANDROID_RB_RESTART2, 0, "recovery"); return true; } } else { svc->time_crashed = now; svc->nr_crashed = 1; } } svc->flags &= (~SVC_RESTART); svc->flags |= SVC_RESTARTING;//為服務(wù)加上重啟標志,表明它需要重啟;后續(xù)工作要以此判斷 // Execute all onrestart commands for this service. struct listnode* node; list_for_each(node, &svc->onrestart.commands) {//如果服務(wù)有onrestart選項,則遍歷進程重啟時需要執(zhí)行的命令列表,并執(zhí)行 command* cmd = node_to_item(node, struct command, clist); cmd->func(cmd->nargs, cmd->args); } svc->NotifyStateChange("restarting"); return true; }
該函數(shù)中的處理主要這幾個要點:
如果這個子進程所代表的服務(wù)需要重啟,則會為該服務(wù)加上SVC_RESTARTING標志。
在之前介紹Init進程初始化流程時,我們分析過,當(dāng)Init進程處理完,它就會進入一個循環(huán)化身為守護進程,處理signal、property和keychord等服務(wù):
while (true) { if (!waiting_for_exec) { execute_one_command();//執(zhí)行命令列表中的命令 restart_processes();//啟動服務(wù)列表中的進程 } int timeout = -1; if (process_needs_restart) { timeout = (process_needs_restart - gettime()) * 1000; if (timeout < 0) timeout = 0; } if (!action_queue_empty() || cur_action) { timeout = 0; } bootchart_sample(&timeout);//bootchart是一個用可視化方式對啟動過程進行性能分析的工具;需要定時喚醒進程 epoll_event ev; int nr = TEMP_FAILURE_RETRY(epoll_wait(epoll_fd, &ev, 1, timeout));//開始輪詢,epoll_wait()等待事件產(chǎn)生 if (nr == -1) { ERROR("epoll_wait failed: %s\n", strerror(errno)); } else if (nr == 1) { ((void (*)()) ev.data.ptr)();//調(diào)用epoll_event事件存儲的函數(shù)指針處理事件 } }
其中,它會循環(huán)調(diào)用restart_processes()去重啟在service_list列表中帶有所有帶有SVC_RESTARTING標志(該標志是在wait_for_one_process()處理中設(shè)置的)的服務(wù):
static void restart_processes() { process_needs_restart = 0; service_for_each_flags(SVC_RESTARTING, restart_service_if_needed); } void service_for_each_flags(unsigned matchflags, void (*func)(struct service *svc)) { struct listnode *node; struct service *svc; list_for_each(node, &service_list) { svc = node_to_item(node, struct service, slist); if (svc->flags & matchflags) { func(svc); } } }
static void restart_service_if_needed(struct service *svc) { time_t next_start_time = svc->time_started + 5; if (next_start_time <= gettime()) { svc->flags &= (~SVC_RESTARTING); service_start(svc, NULL); return; } if ((next_start_time < process_needs_restart) || (process_needs_restart == 0)) { process_needs_restart = next_start_time; } }
最終會調(diào)用service_start()函數(shù)去重新啟動一個退出的服務(wù)。service_start()的處理過程在介紹Init進程處理流程時已經(jīng)分析,這里就不再贅述。
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!