真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

scrapy導出文件中文亂碼問題-創(chuàng)新互聯(lián)

背景:

使用scrapy crawl spidername -o filename.json命令執(zhí)行爬蟲,并將item寫入文件,發(fā)現(xiàn)中文亂碼,比如這樣子:
scrapy導出文件中文亂碼問題

創(chuàng)新互聯(lián)公司提供網(wǎng)站設計制作、成都網(wǎng)站設計、網(wǎng)頁設計,高端網(wǎng)站設計,廣告投放平臺等致力于企業(yè)網(wǎng)站建設與公司網(wǎng)站制作,十載的網(wǎng)站開發(fā)和建站經(jīng)驗,助力企業(yè)信息化建設,成功案例突破近1000家,是您實現(xiàn)網(wǎng)站建設的好選擇.

解決方法

第一種方法:

使用scrapy命令導出時指定編碼格式

scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8
第二種方法:

借助Pipeline將item寫入到文件
1.修改pipelines.py,添加:

import json
import codecs

class YiyaoPipeline(object):
    def __init__(self):
        self.file = codecs.open('item.json', 'wb', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + '\n'
        self.file.write(line)
        return item

2.修改settings.py,激活pipeline:

ITEM_PIPELINES = {
   'yiyao.pipelines.YiyaoPipeline': 300,
}

注意:settings.py默認有ITEM_PIPELINES配置,只是注銷掉了。
3.使用scrapy命令導出時,直接執(zhí)行:

scrapy crawl baidu 

網(wǎng)頁名稱:scrapy導出文件中文亂碼問題-創(chuàng)新互聯(lián)
本文來源:http://weahome.cn/article/djdoep.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部