說到ASCII,Unicode和UTF-8,可能大家都知道是字符編碼,但具體含義,以及其中差異,可能很多人都不知道。
一、名稱解釋
ASCII:American Standard Code for Information Interchange,美國信息互換標準代碼。Unicode:統(tǒng)一碼、萬國碼、單一碼,是計算機科學領域里的一項業(yè)界標準,包括字符集、編碼方案等。UTF-8:8-bit Unicode Transformation Format,是一種針對Unicode的可變長度字符編碼。
二、歷史變遷

很久以前,有一群人,他們決定用8個可以開合的晶體管來組合成不同的狀態(tài),以表示世界上的萬物。他們看到8個開關狀態(tài)是好的,于是他們把這稱為“字節(jié)”。再后來,他們又做了一些可以處理這些字節(jié)的機器,機器開動了,可以用字節(jié)來組合出很多狀態(tài),狀態(tài)開始變來變?nèi)?。他們看到這樣是好的,于是它們就這機器稱為”計算機“。開始計算機只在美國使用,八位的字節(jié)一共可以組合出256種不同的狀態(tài)。他們把其中的編號從0開始的32種狀態(tài)分別規(guī)定了特殊的用途,一但終端、打印機遇上約定好的這些字節(jié)被傳過來時,就要做一些約定的動作。遇上0×10, 終端就換行,遇上0×07, 終端就向人們嘟嘟叫。他們看到這樣很好,于是就把這些0×20以下的字節(jié)狀態(tài)稱為“控制碼”。他們又把所有的空格、標點符號、數(shù)字、大小寫字母分別用連續(xù)的字節(jié)狀態(tài)表示,一直編到了第127號,這樣計算機就可以用不同字節(jié)來存儲英語的文字了。大家看到這樣,都感覺很好,于是大家都把這個方案叫做 ANSI 。后來,世界各地都開始使用計算機了,但是很多國家用的不是英文,他們的字母里有許多是ASCII里沒有的,為了可以在計算機 保存他們的文字,他們決定采用 127號之后的空位來表示這些新的字母、符號,還加入了很多畫表格時需要用下到的橫線、豎線、交叉等形狀,一直把序號編到了最后一個狀態(tài)255。從128 到255這一頁的字符集被稱“擴展字符集”。等中國人們得到計算機時,已經(jīng)沒有可以利用的字節(jié)狀態(tài)來表示漢字,而且常用漢字有六七千個,這個時候,中國人民就使用了一套漢字方案叫做GB2312”。隨著發(fā)展,又發(fā)現(xiàn)了一些局限,所以就有了GBK,再繼續(xù)往后增加了一些字符(如少數(shù)名族字體),GBK擴成了 GB18030。

因為當時各個國家都像中國這樣搞出一套自己的編碼標準,結果互相之間誰也不懂誰的編碼,誰也不支持別人的編碼,連大陸和臺灣這樣只相隔了150海里也使用不同編碼。這個時候,出現(xiàn)了一個叫 ISO 組織(國際標準化組織)決定著手解決這個問題。他們采用的方法很簡單:廢了所有的地區(qū)性編碼方案,重新搞一個包括了地球上所有文化、所有字母和符號 的編碼!他們打算叫它“Universal Multiple-Octet Coded Character Set”,簡稱 UCS, 俗稱 “Unicode”。
但是Unicode同樣也有2個問題:
1.計算機怎么知道二個字節(jié)為一個字符,如何識別二個字節(jié)為什么一個字符?
2.針對英文字符,如果使用大于1個字節(jié)來表示,那么低位的前面幾個字節(jié)全是0。很奢侈浪費空間,因為現(xiàn)在計算機大部分內(nèi)容還是英文。
unicode在很長一段時間內(nèi)無法推廣,直到互聯(lián)網(wǎng)的出現(xiàn),為解決unicode如何在網(wǎng)絡上傳輸?shù)膯栴},于是面向傳輸?shù)谋姸?nbsp;UTF(UCS Transfer Format)標準出現(xiàn)了。顧名思義,UTF-8就是每次8個位傳輸數(shù)據(jù),而UTF-16就是每次16個位。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實現(xiàn)方式,這是為傳輸而設計的編碼,并使編碼無國界,這樣就可以顯示全世界上所有文化的字符了。
三、Charset and Encoding

Charset (Character set) 字符集:是對字符抽象表示的集合。包括世界上各種文字、符合和字符。字符集只是一個規(guī)則集合的名字,對應到真實生活中,字符集就是對某種語言的稱呼。例如:英語,漢語,日語。對于一個字符集來說要正確編碼轉碼一個字符需要三個關鍵元素:字庫表(character repertoire)、編碼字符集(coded character set)、字符編碼(character encoding)。
字庫表是一個相當于所有可讀或者可顯示字符的數(shù)據(jù)庫。字庫表決定了整個字符集能夠展現(xiàn)表示的所有字符的范圍。編碼字符集,即用一個編碼值code point來表示一個字符在字庫中的位置。字符編碼,將編碼字符集和實際存儲數(shù)值之間的轉換關系。
四、UTF-8和Unicode的關系
看完上面兩個概念解釋,相信你應該明白其中關系了。Unicode就是上文中提到的編碼字符集,而UTF-8就是字符編碼,即Unicode規(guī)則字庫的一種實現(xiàn)形式。隨著互聯(lián)網(wǎng)的發(fā)展,對同一字庫集的要求越來越迫切,Unicode標準也就自然而然的出現(xiàn)。它幾乎涵蓋了各個國家語言可能出現(xiàn)的符號和文字,并將為他們編號。

五、進一步理解UTF-8編碼
UTF-8編碼為變長編碼。最小編碼單位(code unit)為一個字節(jié)。一個字節(jié)的前1-3個bit為描述性部分,后面為實際序號部分。

1.如果一個字節(jié)的第一位為0,那么代表當前字符為單字節(jié)字符,占用一個字節(jié)的空間。0之后的所有部分(7個bit)代表在Unicode中的序號。
2.如果一個字節(jié)以110開頭,那么代表當前字符為雙字節(jié)字符,占用2個字節(jié)的空間。110之后的所有部分(5個bit)加上后一個字節(jié)的除10外的部分(6個bit)代表在Unicode中的序號。且第二個字節(jié)以10開頭。
3.如果一個字節(jié)以1110開頭,那么代表當前字符為三字節(jié)字符,占用3個字節(jié)的空間。110之后的所有部分(5個bit)加上后兩個字節(jié)的除10外的部分(12個bit)代表在Unicode中的序號。且第二、第三個字節(jié)以10開頭。
來看一個UTF-8編碼例子:

1個字節(jié)的UTF-8十六進制編碼是以比8小的數(shù)字開頭的2個字節(jié)的UTF-8十六進制編碼是以C或D開頭的3個字節(jié)的UTF-8十六進制編碼是以E開頭的