版塊導航: 正在加載中...

登錄注冊

應《網(wǎng)絡安全法》要求，自2017年10月1日起，未進行實名認證將不得使用互聯(lián)網(wǎng)跟帖服務。為保障您的帳號能夠正常使用，請盡快對帳號進行手機號驗證，感謝您的理解與支持！

24小時熱門版塊排行榜

返回列表

mybag1

木蟲 (正式寫手)

應助: 0 (幼兒園)
金幣: 4231.4
紅花: 8
帖子: 417
在線: 140.8小時
蟲號: 74762
注冊: 2005-06-14
專業(yè): 人力資源管理

[交流] (原創(chuàng))將unicode編碼的txt文件轉為utf-8編碼已有2人參與

# coding=UTF-8
import string
import codecs
def changecode():
tt=codecs.open('c:\\111.txt','rb','utf-16')  #111.txt為unicode編碼文件，以unicode編碼打開，utf-16=unicode
mm=open('c:\\123.txt','wb')
ff=tt.readlines()

for i in ff:
      print i
      mm.write(i.encode('UTF-8'))
      mm.write('123')  #添加‘123’是為了判斷是否將以上文件全部轉完。使用中發(fā)現(xiàn)，第一次用時，常常只轉了一部分，沒到結束，再運行一次就能全轉為，我也沒找到具體原因，所以加了這么一條判斷。
tt.close
mm.close

def checkyes():
nn=open('c:\\123.txt','rb')
nnff=nn.readlines()
nn.close()
if nnff[-1]=='123':
      print "finish"

changecode()
checkyes()

對codecs的解釋供學習使用：該解釋轉自：http://blog.csdn.net/zhaoweikid/article/details/1642015
python對多國語言的處理是支持的很好的，它可以處理現(xiàn)在任意編碼的字符，這里深入的研究一下python對多種不同語言的處理。
有一點需要清楚的是，當python要做編碼轉換的時候，會借助于內部的編碼，轉換過程是這樣的：
      原有編碼 -> 內部編碼 -> 目的編碼
python的內部是使用unicode來處理的，但是unicode的使用需要考慮的是它的編碼格式有兩種，一是UCS-2，它一共有65536個碼位，另一種是UCS-4，它有2147483648g個碼位。對于這兩種格式，python都是支持的，這個是在編譯時通過--enable-unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認安裝的python有的什么編碼怎么來確定呢？有一個辦法，就是通過sys.maxunicode的值來判斷：

import sys
print sys.maxunicode

如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點：當一個字符串轉換為內部編碼后，它就不是str類型了！它是unicode類型：

a = "風卷殘云"
print type(a)
b = a.unicode(a, "gb2312" )
print type(b)

輸出：

這個時候b可以方便的任意轉換為其他編碼，比如轉換為utf-8:

c = b.encode("utf-8" )
print c

c輸出的東西看起來是亂碼，那就對了，因為是utf-8的字符串。
好了，該說說codecs模塊了，它和我上面說的概念是密切相關的。codecs專門用作編碼轉換，當然，其實通過它的接口是可以擴展到其他關于代碼方面的轉換的，這個東西這里不涉及。

#-*- encoding: gb2312 -*-
import codecs, sys

print '-'*60
# 創(chuàng)建gb2312編碼器
look  = codecs.lookup("gb2312" )
# 創(chuàng)建utf-8編碼器
look2 = codecs.lookup("utf-8" )

a = "我愛北京天安門"

print len(a), a
# 把a編碼為內部的unicode, 但為什么方法名為decode呢，我的理解是把gb2312的字符串解碼為unicode
b = look.decode(a)
# 返回的b[0]是數(shù)據(jù)，b[1]是長度，這個時候的類型是unicode了
print b[1], b[0], type(b[0])
# 把內部編碼的unicode轉換為gb2312編碼的字符串，encode方法會返回一個字符串類型
b2 = look.encode(b[0])
# 發(fā)現(xiàn)不一樣的地方了吧？轉換回來之后，字符串長度由14變?yōu)榱?! 現(xiàn)在的返回的長度才是真正的字數(shù)，原來的是字節(jié)數(shù)
print b2[1], b2[0], type(b2[0])
# 雖然上面返回了字數(shù)，但并不意味著用len求b2[0]的長度就是7了，仍然還是14，僅僅是codecs.encode會統(tǒng)計字數(shù)
print len(b2[0])

上面的代碼就是codecs的使用，是最常見的用法。另外還有一個問題就是，如果我們處理的文件里的字符編碼是其他類型的呢？這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.

#-*- encoding: gb2312 -*-
import codecs, sys

# 用codecs提供的open方法來指定打開的文件的語言編碼，它會在讀取的時候自動轉換為內部unicode
bfile = codecs.open("dddd.txt", 'r', "big5" )
#bfile = open("dddd.txt", 'r')

ss = bfile.read()
bfile.close()
# 輸出，這個時候看到的就是轉換后的結果。如果使用語言內建的open函數(shù)來打開文件，這里看到的必定是亂碼
print ss, type(ss)

[ Last edited by jjdg on 2012-3-2 at 03:06 ]

回復此樓

» 猜你喜歡

一志愿北京化工大學070300 學碩336求調劑已經(jīng)有4人回復
286求調劑已經(jīng)有9人回復
286分人工智能專業(yè)請求調劑愿意跨考！已經(jīng)有8人回復
資源與環(huán)境調劑申請(333分) 已經(jīng)有5人回復
280求調劑已經(jīng)有12人回復
269專碩求調劑已經(jīng)有5人回復
求調劑院校信息已經(jīng)有3人回復
材料學碩301分求調劑已經(jīng)有7人回復
初試 317 已經(jīng)有7人回復
一志愿211，0703化學310分求調劑已經(jīng)有3人回復

» 本主題相關價值貼推薦，對您同樣有幫助:

項目結構編碼求助已經(jīng)有4人回復
求一篇Nature文獻的PDF文件已經(jīng)有3人回復
通信系統(tǒng)的碼率和信道編碼的碼率有關系不？已經(jīng)有4人回復
【推薦使用codecs解編碼器讓你的Windows Media Player更加完美】已經(jīng)有12人回復
【課件】信息論與編碼（李梅李亦農）已經(jīng)有34人回復
LDPC 編碼的首創(chuàng)者Gallager在1963年的博士論文-清晰完整pdf已搜無重復已經(jīng)有18人回復
急求一個matlab編碼，各位如果知道一定要幫我一把啊已經(jīng)有10人回復
哪里招通信專業(yè)博后，方向，信道編碼、協(xié)作通信。已經(jīng)有4人回復
有人做分布式視頻編碼嗎？已經(jīng)有5人回復
求lagrange插值編碼已經(jīng)有5人回復
請問誰知道萊德爾推出的非編碼RNA培訓班怎么樣�。� 已經(jīng)有7人回復
【求助】請教VB txt文件輸出如何讓每個數(shù)據(jù)占用固定長度的字節(jié)~~~ 已經(jīng)有4人回復

http://www.cnblogs.com/xiaowuyi

1樓 2012-03-01 17:31:39

已閱回復此樓關注TA 給TA發(fā)消息送TA紅花 TA的回帖

lurencyj

木蟲 (著名寫手)

2樓2012-03-01 18:10:17

已閱回復此樓關注TA 給TA發(fā)消息送TA紅花 TA的回帖

lt292

金蟲 (正式寫手)

Holy Shit

應助: 21 (小學生)
金幣: 1256.1
散金: 50
紅花: 3
帖子: 591
在線: 36.4小時
蟲號: 668772
注冊: 2008-12-05
性別: GG

★ ★
小木蟲(金幣+0.5):給個紅包，謝謝回帖
jjdg(金幣+1): 感謝參與 2012-03-02 03:04:27

vi 一條命令就好了吧

贊一下

回復此樓

記憶中的顏色，慢慢褪去，變成一縷縷的黑絲，最終消失在茫茫的空白里，一去不返```

3樓2012-03-01 23:12:17

已閱回復此樓關注TA 給TA發(fā)消息送TA紅花 TA的回帖

lurencyj

木蟲 (著名寫手)

應助: 159 (高中生)
金幣: 2869.2
散金: 520
紅花: 8
沙發(fā): 10
帖子: 1244
在線: 148.3小時
蟲號: 888093
注冊: 2009-10-29
性別: GG
專業(yè): 凝聚態(tài)物性I:結構、力學和

★
小木蟲(金幣+0.5):給個紅包，謝謝回帖

引用回帖:

3樓: Originally posted by lt292 at 2012-03-01 23:12:17:
vi 一條命令就好了吧

vi 大哥，哈哈。。。。。。

回復此樓

很女子很弓雖大

4樓2012-03-01 23:59:56

已閱回復此樓關注TA 給TA發(fā)消息送TA紅花 TA的回帖

相關版塊跳轉我要訂閱樓主 mybag1 的主題更新

返回列表

普通表情龍兔虎貓高級回復 (可上傳附件)

最具人氣熱帖推薦 [查看全部]		作者	回/看	最后發(fā)表

[考研] 一志愿西安交通大學材料工程專業(yè) 282分求調劑 +10	楓橋ZL 2026-03-18	12/600	2026-03-21 22:02 by peike
[考研] 0805 316求調劑 +3	大雪深藏 2026-03-18	3/150	2026-03-21 18:55 by 學員8dgXkO
[考研] 311求調劑 +3	勇敢的小吳 2026-03-20	3/150	2026-03-21 17:40 by ColorlessPI
[考研] 0856材料專碩353求調劑 +3	NIFFFfff 2026-03-20	3/150	2026-03-21 10:23 by luoyongfeng
[考研] 南昌大學材料專碩311分求調劑 +6	77chaselx 2026-03-20	6/300	2026-03-21 07:24 by JourneyLucky
[考研] 311求調劑 +5	冬十三 2026-03-18	5/250	2026-03-21 00:16 by JourneyLucky
[考研] 274求調劑 +10	S.H1 2026-03-18	10/500	2026-03-20 23:51 by JourneyLucky
[考研] 22408 344分求調劑一志愿華電計算機技術 +4	solanXXX 2026-03-20	4/200	2026-03-20 23:49 by alg094825
[考研] 085600材料與化工 +8	安全上岸！ 2026-03-16	8/400	2026-03-20 22:13 by luoyongfeng
[考研] 藥學383 求調劑 +3	藥學chy 2026-03-15	5/250	2026-03-20 22:11 by 云游重陽
[考研] 一志愿武理材料工程348求調劑 +3	￣^￣゜汗 2026-03-19	4/200	2026-03-20 21:01 by zhukairuo
[考研] 320求調劑0856 +3	不想起名字112 2026-03-19	3/150	2026-03-19 22:53 by 學員8dgXkO
[考研] 085600材料與化工調劑 324分 +10	llllkkkhh 2026-03-18	12/600	2026-03-19 14:33 by llllkkkhh
[考研] 085600材料與化工求調劑 +6	緒幸與子 2026-03-17	6/300	2026-03-19 13:27 by houyaoxu
[考研] 344求調劑 +6	knight344 2026-03-16	7/350	2026-03-18 20:13 by walc
[考研] 085601專碩，總分342求調劑，地區(qū)不限 +5	share_joy 2026-03-16	5/250	2026-03-18 14:48 by haxia
[考研] 有沒有道鐵/土木的想調劑南林，給自己招師弟中～ +3	TqlXswl 2026-03-16	7/350	2026-03-17 15:23 by TqlXswl
[考研] 一志愿南京大學，080500材料科學與工程，調劑 +4	Jy? 2026-03-16	4/200	2026-03-17 11:02 by gaoqiong
[考研] 333求調劑 +3	文思客 2026-03-16	7/350	2026-03-16 18:21 by 文思客
[考研] 0856求調劑 +3	劉夢微 2026-03-15	3/150	2026-03-16 10:00 by houyaoxu

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产 高清 中文字幕,99re热久久亚洲综合精品成人,熟妇 一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

24小時熱門版塊排行榜

mybag1

[交流] (原創(chuàng))將unicode編碼的txt文件轉為utf-8編碼 已有2人參與

» 猜你喜歡

» 本主題相關價值貼推薦，對您同樣有幫助:

lurencyj

lt292

lurencyj

亭亭五月天在线观看,亭亭五月天在线观看,国产最新av一区二区,国产高清中文字幕,99re热久久亚洲综合精品成人,熟妇一区二区三区,一级做a爰片性色毛片武则天,美女的骚穴视频播放,国产美女午夜免费视频

[交流] (原創(chuàng))將unicode編碼的txt文件轉為utf-8編碼已有2人參與

» 本主題相關價值貼推薦，對您同樣有幫助: