| 4 | 1/1 | 返回列表 |
| 查看: 1281 | 回復(fù): 3 | |||
mybag1木蟲 (正式寫手)
|
[交流]
(原創(chuàng))將unicode編碼的txt文件轉(zhuǎn)為utf-8編碼 已有2人參與
|
|
# coding=UTF-8 import string import codecs def changecode(): tt=codecs.open('c:\\111.txt','rb','utf-16') #111.txt為unicode編碼文件,以u(píng)nicode編碼打開,utf-16=unicode mm=open('c:\\123.txt','wb') ff=tt.readlines() for i in ff: print i mm.write(i.encode('UTF-8')) mm.write('123') #添加‘123’是為了判斷是否將以上文件全部轉(zhuǎn)完。使用中發(fā)現(xiàn),第一次用時(shí),常常只轉(zhuǎn)了一部分,沒到結(jié)束,再運(yùn)行一次就能全轉(zhuǎn)為,我也沒找到具體原因,所以加了這么一條判斷。 tt.close mm.close def checkyes(): nn=open('c:\\123.txt','rb') nnff=nn.readlines() nn.close() if nnff[-1]=='123': print "finish" changecode() checkyes() 對(duì)codecs的解釋供學(xué)習(xí)使用:該解釋轉(zhuǎn)自:http://blog.csdn.net/zhaoweikid/article/details/1642015 python對(duì)多國語言的處理是支持的很好的,它可以處理現(xiàn)在任意編碼的字符,這里深入的研究一下python對(duì)多種不同語言的處理。 有一點(diǎn)需要清楚的是,當(dāng)python要做編碼轉(zhuǎn)換的時(shí)候,會(huì)借助于內(nèi)部的編碼,轉(zhuǎn)換過程是這樣的: 原有編碼 -> 內(nèi)部編碼 -> 目的編碼 python的內(nèi)部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個(gè)碼位,另一種是UCS-4,它有2147483648g個(gè)碼位。對(duì)于這兩種格式,python都是支持的,這個(gè)是在編譯時(shí)通過--enable-unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認(rèn)安裝的python有的什么編碼怎么來確定呢?有一個(gè)辦法,就是通過sys.maxunicode的值來判斷: import sys print sys.maxunicode 如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。 我們要認(rèn)識(shí)到一點(diǎn):當(dāng)一個(gè)字符串轉(zhuǎn)換為內(nèi)部編碼后,它就不是str類型了!它是unicode類型: a = "風(fēng)卷殘?jiān)?quot; print type(a) b = a.unicode(a, "gb2312" ) print type(b) 輸出: 這個(gè)時(shí)候b可以方便的任意轉(zhuǎn)換為其他編碼,比如轉(zhuǎn)換為utf-8: c = b.encode("utf-8" ) print c c輸出的東西看起來是亂碼,那就對(duì)了,因?yàn)槭莡tf-8的字符串。 好了,該說說codecs模塊了,它和我上面說的概念是密切相關(guān)的。codecs專門用作編碼轉(zhuǎn)換,當(dāng)然,其實(shí)通過它的接口是可以擴(kuò)展到其他關(guān)于代碼方面的轉(zhuǎn)換的,這個(gè)東西這里不涉及。 #-*- encoding: gb2312 -*- import codecs, sys print '-'*60 # 創(chuàng)建gb2312編碼器 look = codecs.lookup("gb2312" ) # 創(chuàng)建utf-8編碼器 look2 = codecs.lookup("utf-8" ) a = "我愛北京天安門" print len(a), a # 把a(bǔ)編碼為內(nèi)部的unicode, 但為什么方法名為decode呢,我的理解是把gb2312的字符串解碼為unicode b = look.decode(a) # 返回的b[0]是數(shù)據(jù),b[1]是長度,這個(gè)時(shí)候的類型是unicode了 print b[1], b[0], type(b[0]) # 把內(nèi)部編碼的unicode轉(zhuǎn)換為gb2312編碼的字符串,encode方法會(huì)返回一個(gè)字符串類型 b2 = look.encode(b[0]) # 發(fā)現(xiàn)不一樣的地方了吧?轉(zhuǎn)換回來之后,字符串長度由14變?yōu)榱?! 現(xiàn)在的返回的長度才是真正的字?jǐn)?shù),原來的是字節(jié)數(shù) print b2[1], b2[0], type(b2[0]) # 雖然上面返回了字?jǐn)?shù),但并不意味著用len求b2[0]的長度就是7了,仍然還是14,僅僅是codecs.encode會(huì)統(tǒng)計(jì)字?jǐn)?shù) print len(b2[0]) 上面的代碼就是codecs的使用,是最常見的用法。另外還有一個(gè)問題就是,如果我們處理的文件里的字符編碼是其他類型的呢?這個(gè)讀取進(jìn)行做處理也需要特殊的處理的。codecs也提供了方法. #-*- encoding: gb2312 -*- import codecs, sys # 用codecs提供的open方法來指定打開的文件的語言編碼,它會(huì)在讀取的時(shí)候自動(dòng)轉(zhuǎn)換為內(nèi)部unicode bfile = codecs.open("dddd.txt", 'r', "big5" ) #bfile = open("dddd.txt", 'r') ss = bfile.read() bfile.close() # 輸出,這個(gè)時(shí)候看到的就是轉(zhuǎn)換后的結(jié)果。如果使用語言內(nèi)建的open函數(shù)來打開文件,這里看到的必定是亂碼 print ss, type(ss) [ Last edited by jjdg on 2012-3-2 at 03:06 ] |

![]() ![]() |
金蟲 (正式寫手)
Holy Shit

木蟲 (著名寫手)

| 4 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 生物學(xué)調(diào)劑 +4 | Surekei 2026-03-21 | 4/200 |
|
|---|---|---|---|---|
|
[考研] 初試 317 +7 | 半拉月丙 2026-03-20 | 7/350 |
|
|
[考研] 302求調(diào)劑 +12 | 呼呼呼。。。。 2026-03-17 | 12/600 |
|
|
[考研] 22 350 本科985求調(diào)劑,求老登收留 +3 | 李軼男003 2026-03-20 | 3/150 |
|
|
[考研] 一志愿山大07化學(xué) 332分 四六級(jí)已過 本科山東雙非 求調(diào)劑! +3 | 不想理你 2026-03-16 | 3/150 |
|
|
[考研] 265求調(diào)劑 +9 | 梁梁校校 2026-03-17 | 9/450 |
|
|
[考研]
|
.6lL 2026-03-18 | 8/400 |
|
|
[考研] 材料專業(yè)求調(diào)劑 +6 | hanamiko 2026-03-18 | 6/300 |
|
|
[考研] 一志愿 西北大學(xué) ,070300化學(xué)學(xué)碩,總分287,雙非一本,求調(diào)劑。 +4 | 晨昏線與星海 2026-03-19 | 4/200 |
|
|
[考研] 一志愿中南化學(xué)(0703)總分337求調(diào)劑 +8 | niko- 2026-03-19 | 9/450 |
|
|
[考研] A區(qū)線材料學(xué)調(diào)劑 +5 | 周周無極 2026-03-20 | 5/250 |
|
|
[考研] 材料學(xué)碩297已過四六級(jí)求調(diào)劑推薦 +11 | adaie 2026-03-19 | 11/550 |
|
|
[考研] 281求調(diào)劑(0805) +14 | 煙汐憶海 2026-03-16 | 25/1250 |
|
|
[考研] 材料學(xué)碩318求調(diào)劑 +5 | February_Feb 2026-03-19 | 5/250 |
|
|
[考研] 081700化工學(xué)碩調(diào)劑 +3 | 【1】 2026-03-16 | 3/150 |
|
|
[考研] 0703化學(xué)調(diào)劑 +4 | 18889395102 2026-03-18 | 4/200 |
|
|
[考研]
|
胡辣湯放糖 2026-03-15 | 6/300 |
|
|
[考研] [導(dǎo)師推薦]西南科技大學(xué)國防/材料導(dǎo)師推薦 +3 | 尖角小荷 2026-03-16 | 6/300 |
|
|
[考研] 321求調(diào)劑 +5 | 大米飯! 2026-03-15 | 5/250 |
|
|
[考研] 中科院材料273求調(diào)劑 +4 | yzydy 2026-03-15 | 4/200 |
|