最近剛給公司測(cè)試環(huán)境上了K8s,大部分容器采用得是以alpine為基礎(chǔ)的鏡像,基礎(chǔ)服務(wù)如MySQL、redis等以域名的方式連接,但是出現(xiàn)一個(gè)很奇怪的現(xiàn)象,部分Pod內(nèi)應(yīng)用報(bào)DNS超時(shí),大概報(bào)錯(cuò)日志是這樣的(JAVA):io.netty.resolver.dns.DnsNameResolverTimeoutException: [/10.96.0.10:53] query timed out after 5000 milliseconds (no stack trace available)
?
網(wǎng)上搜了一下,似乎K8s環(huán)境中使用alpine作鏡像就會(huì)出現(xiàn)這個(gè)問題,參考了這篇文章:https://forum.choerodon.io/t/topic/1111, 嘗試解決方法如下
1、使用移除解析AAAA記錄的alpine修改版鏡像,并安裝了glibc以支持java,鏡像地址:https://hub.docker.com/r/geekidea/alpine-a/, 無效
2、文章中提到非alpine鏡像,可以通過修改/etc/resolv.conf增加options single-request-reopen解決問題,alpine鏡像不行,原因是非alpine鏡像采用的glibc,而alpine默認(rèn)使用的是musl libc,想著我們用的alpine已經(jīng)安裝glibc,可不可以用這個(gè)方法試一下,于是嘗試修改,在YAML中加入下面這段:
創(chuàng)新互聯(lián)建站專注于鳳山企業(yè)網(wǎng)站建設(shè),自適應(yīng)網(wǎng)站建設(shè),成都做商城網(wǎng)站。鳳山網(wǎng)站建設(shè)公司,為鳳山等地區(qū)提供建站服務(wù)。全流程按需求定制網(wǎng)站,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)建站專業(yè)和態(tài)度為您提供的服務(wù)
lifecycle:
postStart:
exec:
command:
- /bin/sh
- -c
- "/bin/echo 'options single-request-reopen' >> /etc/resolv.conf"
注意:這里不能直接使用sed替換,會(huì)報(bào)錯(cuò)。
還是無效
重新理清思路,會(huì)不會(huì)是自動(dòng)生成的/etc/resolv.conf有問題,造成DNS不正常,查看Pod的/etc/resolv.conf,原始文件內(nèi)容如下:
nameserver 10.96.0.10
search test1.svc.cluster.local svc.cluster.local cluster.local
options ndots:5
嘗試ping test1.svc.cluster.local
ping svc.cluster.local
ping cluster.local
發(fā)現(xiàn)后兩個(gè)根本無法ping通,難道這兩個(gè)搜索域引起DNS超時(shí),于是決定試試不使用默認(rèn)生成的/etc/resolv.conf,自己寫,查看K8s官方文檔,原來官方就提供類似配置,在YAML的spec段加入如下配置:
dnsPolicy: "None"
dnsConfig:
nameservers:
- 10.96.0.10
searches:
- test1.svc.cluster.local
options:
- name: single-request-reopen
注意nameservers為kube-dns的ClusterIP,searches(搜索域)根據(jù)你的實(shí)際環(huán)境配置
生成的/etc/resolv.conf如下:
nameserver 10.96.0.10
search test1.svc.cluster.local
options single-request-reopen
嘗試多次刪除Pod,創(chuàng)建Pod,問題不再?gòu)?fù)現(xiàn),原來罪魁禍?zhǔn)拙统鲈趓esolv.conf的搜索域配置中,具體原理等以后有空再去研究一下,最近沒時(shí)間:)