欧美不卡三级片免费,玖玖爱亚洲精品亚洲日韩在线影视

從ASCII碼->Unicode->UTF-8歷史變遷，及其差異

常見問題發(fā)布者：cya 2019-12-11 08:34 訪問量：304

來自公眾號：strongerHuang

說到ASCII，Unicode和UTF-8，可能大家都知道是字符編碼，但具體含義，以及其中差異，可能很多人都不知道。

一、名稱解釋

ASCII：American Standard Code for Information Interchange，美國信息互換標準代碼。

Unicode：統(tǒng)一碼、萬國碼、單一碼，是計算機科學領域里的一項業(yè)界標準，包括字符集、編碼方案等。

UTF-8：8-bit Unicode Transformation Format，是一種針對Unicode的可變長度字符編碼。

二、歷史變遷

先給大家看一張變遷圖：

很久以前，有一群人，他們決定用8個可以開合的晶體管來組合成不同的狀態(tài)，以表示世界上的萬物。他們看到8個開關狀態(tài)是好的，于是他們把這稱為“字節(jié)”。再后來，他們又做了一些可以處理這些字節(jié)的機器，機器開動了，可以用字節(jié)來組合出很多狀態(tài)，狀態(tài)開始變來變?nèi)?。他們看到這樣是好的，于是它們就這機器稱為”計算機“。

開始計算機只在美國使用，八位的字節(jié)一共可以組合出256種不同的狀態(tài)。他們把其中的編號從0開始的32種狀態(tài)分別規(guī)定了特殊的用途，一但終端、打印機遇上約定好的這些字節(jié)被傳過來時，就要做一些約定的動作。遇上0×10, 終端就換行，遇上0×07, 終端就向人們嘟嘟叫。他們看到這樣很好，于是就把這些0×20以下的字節(jié)狀態(tài)稱為“控制碼”。他們又把所有的空格、標點符號、數(shù)字、大小寫字母分別用連續(xù)的字節(jié)狀態(tài)表示，一直編到了第127號，這樣計算機就可以用不同字節(jié)來存儲英語的文字了。大家看到這樣，都感覺很好，于是大家都把這個方案叫做 ANSI 。

后來，世界各地都開始使用計算機了，但是很多國家用的不是英文，他們的字母里有許多是ASCII里沒有的，為了可以在計算機保存他們的文字，他們決定采用 127號之后的空位來表示這些新的字母、符號，還加入了很多畫表格時需要用下到的橫線、豎線、交叉等形狀，一直把序號編到了最后一個狀態(tài)255。從128 到255這一頁的字符集被稱“擴展字符集”。

等中國人們得到計算機時，已經(jīng)沒有可以利用的字節(jié)狀態(tài)來表示漢字，而且常用漢字有六七千個，這個時候，中國人民就使用了一套漢字方案叫做GB2312”。隨著發(fā)展，又發(fā)現(xiàn)了一些局限，所以就有了GBK，再繼續(xù)往后增加了一些字符（如少數(shù)名族字體），GBK擴成了 GB18030。

因為當時各個國家都像中國這樣搞出一套自己的編碼標準，結果互相之間誰也不懂誰的編碼，誰也不支持別人的編碼，連大陸和臺灣這樣只相隔了150海里也使用不同編碼。這個時候，出現(xiàn)了一個叫 ISO 組織（國際標準化組織）決定著手解決這個問題。他們采用的方法很簡單：廢了所有的地區(qū)性編碼方案，重新搞一個包括了地球上所有文化、所有字母和符號的編碼！他們打算叫它“Universal Multiple-Octet Coded Character Set”，簡稱 UCS, 俗稱 “Unicode”。

但是Unicode同樣也有2個問題:

1.計算機怎么知道二個字節(jié)為一個字符，如何識別二個字節(jié)為什么一個字符？

2.針對英文字符，如果使用大于1個字節(jié)來表示，那么低位的前面幾個字節(jié)全是0。很奢侈浪費空間，因為現(xiàn)在計算機大部分內(nèi)容還是英文。

unicode在很長一段時間內(nèi)無法推廣，直到互聯(lián)網(wǎng)的出現(xiàn)，為解決unicode如何在網(wǎng)絡上傳輸?shù)膯栴}，于是面向傳輸?shù)谋姸?nbsp;UTF（UCS Transfer Format）標準出現(xiàn)了。顧名思義，UTF-8就是每次8個位傳輸數(shù)據(jù)，而UTF-16就是每次16個位。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實現(xiàn)方式，這是為傳輸而設計的編碼，并使編碼無國界，這樣就可以顯示全世界上所有文化的字符了。

三、Charset and Encoding

1.什么是字符編碼

Charset (Character set) 字符集：是對字符抽象表示的集合。包括世界上各種文字、符合和字符。

字符集只是一個規(guī)則集合的名字，對應到真實生活中，字符集就是對某種語言的稱呼。例如：英語，漢語，日語。

2.什么是字符編碼

對于一個字符集來說要正確編碼轉碼一個字符需要三個關鍵元素：字庫表（character repertoire）、編碼字符集（coded character set）、字符編碼（character encoding）。

字庫表是一個相當于所有可讀或者可顯示字符的數(shù)據(jù)庫。字庫表決定了整個字符集能夠展現(xiàn)表示的所有字符的范圍。

編碼字符集，即用一個編碼值code point來表示一個字符在字庫中的位置。

字符編碼，將編碼字符集和實際存儲數(shù)值之間的轉換關系。

四、UTF-8和Unicode的關系

看完上面兩個概念解釋，相信你應該明白其中關系了。Unicode就是上文中提到的編碼字符集，而UTF-8就是字符編碼，即Unicode規(guī)則字庫的一種實現(xiàn)形式。隨著互聯(lián)網(wǎng)的發(fā)展，對同一字庫集的要求越來越迫切，Unicode標準也就自然而然的出現(xiàn)。它幾乎涵蓋了各個國家語言可能出現(xiàn)的符號和文字，并將為他們編號。