這篇文章主要為大家展示了“nodejs爬蟲遇到亂碼怎么辦”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“nodejs爬蟲遇到亂碼怎么辦”這篇文章吧。
平谷網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應式網(wǎng)站建設(shè)公司等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)公司從2013年創(chuàng)立到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。使用nodejs程序解析了網(wǎng)頁編碼為gbk,gb2312,以及utf-8的情況,這里面有三種特殊的亂碼情況需要單獨的說明一下.
1,網(wǎng)頁編碼為utf-8,但是解析為亂碼,代表網(wǎng)站為www.guoguo-app.com。
這個問題真是個逗逼問題,查看網(wǎng)頁源碼中給出的編碼方式為utf8,如下:
查快遞
由于解析出來的始終是亂碼,我就抓包看了下,報文中的編碼方式為gbk,果然我使用gbk的方式之后,得到的不再是亂碼了。淘寶為了反爬蟲也是操碎了新,但是我也很好奇這種方式是怎么實現(xiàn)的,知道的告訴我。
GET / HTTP/1.1 Host: www.guoguo-app.com Connection: close HTTP/1.1 200 OK Date: Thu, 06 Apr 2017 01:56:23 GMT Content-Type: text/html;charset=GBK Transfer-Encoding: chunked Connection: close Vary: Accept-Encoding Vary: Accept-Encoding Content-Language: zh-CN Server: Tengine/Aserver
1,網(wǎng)頁編碼為utf-8,解析為亂碼情況二,代表網(wǎng)站http//andersonjiang.blog.sohu.com/
單純的查看網(wǎng)頁源碼看不出任何毛病,于是我又抓了一次包,得到如下情形:
GET / HTTP/1.1 Host: andersonjiang.blog.sohu.com Connection: close HTTP/1.1 200 OK Content-Type: text/html; charset=GBK Transfer-Encoding: chunked Connection: close Server: nginx Date: Thu, 06 Apr 2017 02:10:33 GMT Vary: Accept-Encoding Expires: Thu, 01 Jan 1970 00:00:00 GMT RHOST: 192.168.110.68@11177 Pragma: No-cache Cache-Control: no-cache Content-Language: en-US Content-Encoding: gzip FSS-Cache: MISS from 13539701.18454911.21477824 FSS-Proxy: Powered by 9935166.11245896.17873234
andersonjiang.blog.sohu.com這個網(wǎng)站同時采用了Transfer-Encoding: chunked傳輸編碼和Content-Encoding: gzip內(nèi)容編碼功能,由于nodejs爬蟲沒有g(shù)zip解包功能,因此該網(wǎng)站提取不到任何字段,即title和charset等。要想提取此類網(wǎng)站則要添加gzip解包功能。
下面兩個網(wǎng)站www.cr173.com以及www.csdn.net是正常的抓包情況。
GET / HTTP/1.1 Host: www.cr173.com Connection: close HTTP/1.1 200 OK Expires: Thu, 06 Apr 2017 02:42:20 GMT Date: Thu, 06 Apr 2017 02:12:20 GMT Content-Type: text/html Last-Modified: Thu, 06 Apr 2017 00:52:42 GMT ETag: "96a4141970aed21:0" Cache-Control: max-age=1800 Accept-Ranges: bytes Content-Length: 158902 Accept-Ranges: bytes X-Varnish: 1075189606 Via: 1.1 varnish X-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0) Connection: close GET / HTTP/1.1 Host: www.csdn.net Connection: close HTTP/1.1 200 OK Server: openresty Date: Thu, 06 Apr 2017 02:18:59 GMT Content-Type: text/html; charset=utf-8 Content-Length: 99363 Connection: close Vary: Accept-Encoding Last-Modified: Thu, 06 Apr 2017 02:10:02 GMT Vary: Accept-Encoding ETag: "58e5a37a-18423" Accept-Ranges: bytes
3,網(wǎng)頁編碼為其他形式的編碼,解析為亂碼,例如:
(1)編碼為Big5,代表網(wǎng)站為 www.ruten.com.tw, www.ctgoodjobs.hk
(2)編碼為Shift_JIS,代表網(wǎng)站為www.vector.co.jp,www.smbc.co.jp
(3)編碼為windows-12,代表網(wǎng)站為www.tff.org,www.pravda.com.ua
(4)編碼為EUC-JP,代表網(wǎng)站為www.showtime.jp
(5)編碼為EUC-KR ,代表網(wǎng)站為www.incruit.com,www.samsunghospital.com,
由于iconv-lite的說明中支持如下的編碼方式:
Currently only a small part of encodings supported:
All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'. Base encodings: 'latin1' Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'. Simplified chinese: 'gbk', 'gb2313'.
Other encodings are easy to add, see the source. Please, participate
因此對于上述出現(xiàn)的網(wǎng)頁編碼,只有自己添加解碼方式加以解決了。
總之要寫一個通用的爬蟲程序還有很長的路要走。
以上是“nodejs爬蟲遇到亂碼怎么辦”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司行業(yè)資訊頻道!
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)建站www.cdcxhl.com,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。