亚洲av无码久久精品成人,国产精品无码AV天天爽,日韩AV一区二区在线观看

主頁 > 知識庫 > 網(wǎng)站開發(fā)防止中文亂碼需要了解的codepage的重要性小結(jié)

網(wǎng)站開發(fā)防止中文亂碼需要了解的codepage的重要性小結(jié)

相關(guān)的題外話：

一、操作系統(tǒng)
window系統(tǒng)內(nèi)部都是unicode的。文件夾名，文件名等都是unicode的，任何語言系統(tǒng)下都能正常顯示。

二、輸入法：
微軟拼音輸出的是Unicode的，智能ABC輸出是簡體中文的（所以智能ABC在非簡體中文系統(tǒng)根本不能用，只能打英文）。

三、網(wǎng)頁的textarea
網(wǎng)頁的textarea是用unicode顯示的。所以往里打什么字都能顯示。而一些flash做的輸入框就不行了。

四、Access2000
access里面保存的數(shù)據(jù)是unicode的，在任何語言系統(tǒng)下都能顯示。
如果數(shù)據(jù)視圖查看有些字符不正常，那是因為顯示所用的字體不是Unicode字體，
換用Arial Unicode MS 字體就能全部顯示了。（access幫助，搜索，輸入unicode，有說明）

五、Word
word里的繁簡轉(zhuǎn)換，簡體轉(zhuǎn)換到繁體后，內(nèi)碼仍是簡體中文的，其實只是簡體中的繁體字。

六、ASP內(nèi)部是Unicode的，所有文本都是Unicode存儲的。需要時轉(zhuǎn)換到指定字符集。

首先說下結(jié)論：
%@ codepage=936%>簡體中文
%@ codepage=950%>繁體中文
%@ codepage=65001%>UTF-8

codepage指定了IIS按什么編碼讀取傳遞過來的串串（表單提交，地址欄傳遞等）。

也指定了所有文本變量從Unicode轉(zhuǎn)換到的編碼，
也就指定了從數(shù)據(jù)庫取出的數(shù)據(jù)從Unicode轉(zhuǎn)換到的編碼。（注意這個，很重要。）

關(guān)鍵字：
讀取：一個串串，按簡體讀取是一些字，按繁體讀取是一些字，串串本身編碼沒有變。

轉(zhuǎn)換：系統(tǒng)主動的轉(zhuǎn)換，比如從Unicode的“化”字到Big5的“化”字，內(nèi)碼變成Big5的。如果Big5沒有對應(yīng)的字，保留Unicode形式（#xxxx;）

簡體中文：化六個結(jié)論
Unicode16進制形式：#x5316;#x516d;#x4e2a;#x7ED3;#x8bba;
Unicode10進制形式：#21270;#20845;#20010;#32467;#35770;

下面是我推測出來的編碼轉(zhuǎn)換的過程：
客戶端：輸入法Unicode--輸入框unicode--從Unicode按charset轉(zhuǎn)換到對應(yīng)編碼()--表單發(fā)送編碼

服務(wù)器端：IIS解開表單編碼--按codepage指定編碼讀取--轉(zhuǎn)換到對應(yīng)的Unicode--可以用request("")讀取了--進行一些處理--以Unicode編碼保存到數(shù)據(jù)庫

服務(wù)器端：讀取數(shù)據(jù)庫的Unicode數(shù)據(jù)，轉(zhuǎn)換到codepage指定編碼---生成源代碼--IE按charset讀取顯示。

下面舉例說明：
例一：
假設(shè)有三個asp頁面，典型的留言頁面：
1.write.asp 簡單的輸入表單，提交到add.asp。
META http-equiv="Content-Type" content="text/html; charset=big5">
2.add.asp 接收留言，保存到數(shù)據(jù)庫
%@ codepage=936%>
3.read.asp 從數(shù)據(jù)庫取得留言，顯示。
%@ codepage=936%> charset=GB2312 或
%@ codepage=950%> charset=big5

大家可以猜一猜，我在write.asp里用微軟拼音輸入法輸入“化六個討論”。最后在read.asp里會顯示什么樣？
是不是暈了。讓我們從頭分析。

例二：
把例一的add.asp的%@ codepage=936%>改為%@ codepage=950%>，又會怎么樣呢？

到這里發(fā)現(xiàn)了什么？
1．如果輸入的文字和Charset對應(yīng)的不同，一轉(zhuǎn)換，就可能出現(xiàn)Unicode形式的字了。這里就是原因所在。以后整個過程都保留著。
2．Add.asp里codepage決定了保存到數(shù)據(jù)庫的文字，用的是哪個語言對應(yīng)的Unicode.如codepage=936，
那么數(shù)據(jù)庫保存的就是簡體中文的Unicode（數(shù)據(jù)庫拿回簡體中文系統(tǒng)，一切正常的），
codepage=950保存的就是繁體中文的Unicode.（拿回簡體中文系統(tǒng)，就不對了）。

3．注意一下串串的變化過程：

1)輸入法---CharsetUnicode----指定字符集的映射
2)Charset----表單編碼串串簡單編碼
3)表單解碼上步的逆過程，兩步抵消了。
4)串串à按codepage讀取串串沒變，這步有可能“誤會讀取”
5)轉(zhuǎn)為對應(yīng)的Unicode Codepage指定字符集----Unicode映射
6)中間處理，進數(shù)據(jù)庫無變化，直接以Unicode形式進入
7)按codepage讀取數(shù)據(jù)庫 Unicode----codepage指定字符集的映射
8)顯示，按Charset指定字符集讀取串串沒變。

以例一說明：

例二：

暈了?，F(xiàn)在來用用知識。

案例1。
簡體中文系統(tǒng)下跑的好好的代碼，放到國外空間上，數(shù)據(jù)庫里亂碼，原有的數(shù)據(jù)也亂碼。
分析：因為大多數(shù)人平時用的都是簡體中文系統(tǒng)，默認的codepage=936，所以平時大家不寫也沒有關(guān)系。
但到了國外空間問題就出來了。從數(shù)據(jù)庫里的Unicode轉(zhuǎn)換到英文編碼去了，所以數(shù)據(jù)庫原有的簡體中文轉(zhuǎn)換到英文后，按GB顯示自然亂碼。
如圖，新輸入的文字顯示正常，但數(shù)據(jù)庫里保存的是英文的Unicode的。
解決方法：全部加上%@codepage=936即可%>。
全程只有簡體中文與對應(yīng)Unicode間的轉(zhuǎn)換。

案例二：
簡體中文的代碼和數(shù)據(jù)，想轉(zhuǎn)為完全的繁體版，該怎么辦？
分析：1。代碼文件編碼全部改為Big5的，文件本身保存編碼選繁體。
2．%@ codepage=936 %>
3.Charset=big5
4.access版本無所謂，因為access里的數(shù)據(jù)是Unicode的。
5.好了，代碼可以在純繁體系統(tǒng)下跑了。
6.遺留問題：原有的簡體中文數(shù)據(jù)讀出會有一些問號。效果同例一的950讀取，big5顯示。因為從簡體中文的Unicode轉(zhuǎn)換到繁體中文了，有些字繁體中沒有，就會出問號。
7.解決：用一個臨時asp頁，codepage=65001，讀出為簡體中文的Unicode，用一個Unicode->Big5的函數(shù)，轉(zhuǎn)為繁體中文，然后寫回數(shù)據(jù)庫，應(yīng)該行了吧？

兩個案例完全是我按照理論推導(dǎo)出來了，未經(jīng)證實。
有類似經(jīng)歷的歡迎批評指正。

您可能感興趣的文章:

ASP codepage 頁面編碼使用說明
CODEPAGE 列表與asp應(yīng)用例子
頁面編碼codepage=936和65001的區(qū)別

標簽：運城通遼巴彥淖爾普洱鷹潭通化雅安荊門

巨人網(wǎng)絡(luò)通訊聲明：本文標題《網(wǎng)站開發(fā)防止中文亂碼需要了解的codepage的重要性小結(jié)》，本文關(guān)鍵詞網(wǎng)站開發(fā),防止,中文,亂碼,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。