筆者小白在收集印刷體漢字的深度學(xué)習(xí)訓(xùn)練集的時(shí)候,一開始就遇到的了一個(gè)十分棘手的問題,就是如何獲取神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集數(shù)據(jù)。通過上網(wǎng)搜素,筆者沒有找到可用的現(xiàn)成的可下載的漢字的訓(xùn)練集,于是筆者采用了代碼自建漢字的訓(xùn)練集數(shù)據(jù)。
汾陽ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!這里采用的是python編寫程序,需要import 的python庫請(qǐng)?zhí)崆鞍惭b。
那么,首先如何用python輸出漢字字庫的文字?
筆者查到在計(jì)算機(jī)中漢字編碼范圍是0x4E00到0x9FA5,利用unichr()可以將十六進(jìn)制的編碼轉(zhuǎn)成人類可讀的字。
這里擴(kuò)展一下在python庫中什么是unichr(),以及什么是chr()和ord()。
chr( )函數(shù)用一個(gè)范圍在range(256)內(nèi)的(就是0~255)整數(shù)作參數(shù),返回一個(gè)對(duì)應(yīng)的字符。
unichr( )跟它一樣,只不過返回的是Unicode字符,這個(gè)從Python 2.0才加入的unichr( )的參數(shù)范圍依賴于你的Python是如何被編譯的。
如果是配置為USC2的Unicode,那么它的允許范圍就是range(65536)或0x0000-0xFFFF;如果配置為UCS4,那么這個(gè)值應(yīng)該是range(1114112)或0x000000-0x110000。
如果提供的參數(shù)不在允許的范圍內(nèi),則會(huì)報(bào)一個(gè)ValueError的異常。
ord( )函數(shù)是chr( )函數(shù)(對(duì)于8位的ASCII字符串)或unichr( )函數(shù)(對(duì)于Unicode對(duì)象)的配對(duì)函數(shù),它以一個(gè)字符(長(zhǎng)度為1的字符串)作為參數(shù),返回對(duì)應(yīng)的ASCII數(shù)值,或者Unicode數(shù)值,如果所給的Unicode字符超出了你的Python定義范圍,則會(huì)引發(fā)一個(gè)TypeError的異常。
接下來就是把unicode編碼的字寫入文件呢,如果直接用open()的話,會(huì)提示UnicodeEncodeError: ‘a(chǎn)scii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)
這里就是涉及到python讀寫文件時(shí)候的兩種方式了,一種是open(),還一種是codecs.open( )。
對(duì)于open()這個(gè)python的內(nèi)置函數(shù)來說, 打開文件的方式一般為:
f=open(file_name,access_mode = 'r',buffering = -1)。