使用scrapy crawl spidername -o filename.json命令執(zhí)行爬蟲,并將item寫入文件,發(fā)現(xiàn)中文亂碼,比如這樣子:
使用scrapy命令導出時指定編碼格式
scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8
借助Pipeline將item寫入到文件
1.修改pipelines.py,添加:
import json
import codecs
class YiyaoPipeline(object):
def __init__(self):
self.file = codecs.open('item.json', 'wb', encoding='utf-8')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii=False) + '\n'
self.file.write(line)
return item
2.修改settings.py,激活pipeline:
ITEM_PIPELINES = {
'yiyao.pipelines.YiyaoPipeline': 300,
}
注意:settings.py默認有ITEM_PIPELINES配置,只是注銷掉了。
3.使用scrapy命令導出時,直接執(zhí)行:
scrapy crawl baidu