天天看點

從原理上搞懂編碼——究竟什麼是編碼?什麼是解碼?什麼是位元組流?歡迎使用Markdown編輯器

原文:http://www.cnblogs.com/luguo3000/p/3592562.html

編碼問題一直都伴随着程式猿從不間斷,剛開始學程式設計的時候好多次遇到編碼問題,解 決了檔案讀取的編碼問題,又遇到了網絡編碼問題,解決了網絡編碼問題又遇到了資料庫編碼問題。總結一下無非就是編碼原理沒搞清楚,希望本文能從原理上讓菜 鳥們了解編碼,遇到問題可以從原理上搞定編碼。

一.編碼

人類先有了自己的語言,交流了若幹個世紀,然後出現了計算機。可惜計算機隻認0和1,人類隻能認文字,雙方都不能妥協,那就必須要有一個從文字到0、1的映射了。從文字到0、1的映射稱為編碼,反過來從0、1到文字叫解碼。

具體什麼 是編碼?先來咬文嚼字一下吧。編就是将某樣東西按照一定的規則放到一起,碼在這裡是數字的意思。編碼就是将某東西編成數字。比如郵政編碼,就是将不同範圍 内的郵局編成不同的數字。計算機裡隻有0和1,編碼就是将文本字元編成一系列的0和1,看起來好像是廢話啊,但這确實是編碼的本質。

後來經過編碼,計算機螢幕上終于可以顯示“Hello World”了。學計算機之前誰都不知道有這麼一個過程,因為一切看上去都理所當然。這種根深蒂固的認識讓我們對編碼了解起來犯了難。

首先螢幕 的顯示跟計算機存儲是兩碼事,螢幕對應人們的視覺認知,它是無形的,你找不出來在哪裡刻了這麼兩個單詞,而計算機存儲是客觀存在的。計算機裡隻有0和1, 怎麼來表示“Hello World”呢(假如我們在美國),那就需要将字母數字及标點符号編一個号。一個位元組可以表示256個數字,表示字母數字标點足夠了,是以用一個位元組就可以對應一個字元了。這樣一來計算機在顯示文字的時候,先将0、1解碼成對應的文字,然後在螢幕上渲染出來就可以了。我們将“Hello World”叫做字元,計算機實際存儲的是字元對應的編号,這些編号就叫位元組流。

上邊這種編碼就是ASCII碼,如果計 算機隻在美國用或者隻顯示英語,那編碼就是透明的,誰都不需要去關心編碼,一切都覺得理所當然。可是計算機應用到了像中國這樣的國家,這些國家的語言哪裡 隻是幾個字母啊,有成千上萬種不同的字元。很顯然ASCII碼就不能滿足需求了,怎麼辦呢,每個國家都研制自己的編碼呗,很顯然這樣做并不長久,每個國家 都有自己的編碼實在有點亂,連兩個國家的語言都不能放在一起。是以可以将世界當成一個整體,把所有的文字統一編号,這時候就出現了unicode編碼。用 一個位元組來表示一個字元顯然是不夠的,unicode編碼用了兩個位元組來表示一個字元。其實,編碼的發展過程并沒有這麼順利,中間還是出現了很多其他的編 碼,以後的文章可以詳細說一下幾種常用的編碼。那問題豈不是解決了,大家都用unicode不就完事了嗎,哪有這麼簡單呢,unicode出現之前計算機 領域已經有很多成型的作業系統軟體甚至标準,不可能都統一改成unicode編碼。是以到現在還是會遇到編碼問題,unicode隻是給我們提供了一種統 一解釋所有文字的編碼方案。要搞清楚,這裡讨論的編碼都是針對文本字元的。

二.亂碼

編碼之是以受到關注,亂碼幾乎起到了決定性的作用,如果沒有亂碼,一切都讓大家覺得順理成章,那誰還會關注編碼呢。

出現亂碼的原因就是文本字元編碼過程與位元組流解碼過程使用了不同的編碼格式,這個往往歸咎于解碼格式選擇錯誤,也就是說在解碼的過程中出現了問題。如 果我的字元是用utf-8編碼,你用GBK解碼那肯定出問題。因為文字按照utf-8的編碼規則編成的0、1,按照GBK的規則解碼回來的文字并不是原來 的文字,這時候就會出現亂碼了。這種問題會出現在檔案讀寫、網絡編碼傳輸、資料庫存取上。隻要牽涉到字元都有可能出現亂碼,因為隻要有字元就會有解碼過 程。

還有一種 情況就是檔案壓根不是文本檔案,也就是說根本就沒有經過編碼這個過程,那你去解碼當然亂碼了。比如64,你如果看做文本字元就是6和4兩個字元,可以對應 編碼格式進行編碼。如果看做是數字64,那對應的存儲結構是01000000,就沒有編碼過程,也就不需要去解碼。

要 搞清楚的一點就是同樣的文本字元,經過不同的編碼,在存儲結構上是不一樣的,但是代表的字元是一樣的,不同編碼真正的差別在于存儲結構。反過來,相同的存 儲結構,經過不同的解碼,對應的文本字元并不一樣,但是在記憶體上結構上并沒有改變。如果碰到亂碼,不要慌張,因為原始存儲結構一動沒動,隻不過用錯了解碼 方式。就像一千個讀者有一千個哈姆雷特一樣,真實的哈姆雷特就在那裡。

亂碼是顯示在螢幕上才被認為是亂碼,也就是說亂碼取決于人的感官,亂碼隻有人才知道﹐計算機不認為這是亂碼。

三.檔案編碼

不管是文本還是圖檔或視訊,在計算機存儲上都是一視同仁,全都是位元組流。但是 從友善人們閱讀的角度上還是分為文本檔案和二進制檔案。文本檔案的可視形式就是文本字元,在存儲和顯示時有文本字元編解碼的過程,可以直接用文本編輯器閱 讀。除文本檔案以外就是二進制檔案,不同類型的二進制檔案都有相應的結構标準,例如java的class檔案,前四個位元組代表檔案類型,後邊兩個位元組代表 大版本号,再後邊兩個位元組代表小版本号。具體哪些位元組代表什麼意思,值是float類型還是int類型,都有一定的标準,是以需要特定的軟體按照标準去讀 取解析。

在不同的程式設計語言中,往往提供不同的類對文本檔案和二進制檔案進行讀寫。最常 用的就是文本檔案的讀寫例如C#中有StreamReader和StreamWriter,Java中有BufferedReader和 BufferedWriter。還有二進制檔案的讀寫例如C#中有BinaryReader和BinaryWriter,Java中有 DataInputStream和DataOutputStream。當然讀寫二進制檔案的類也可以讀寫文本檔案,因為文本檔案和二進制檔案的存儲在本質 上是沒有差別的,都是二進制。隻不過專門讀寫文本檔案的類封裝的更好,讀寫文本檔案更友善.

歡迎使用Markdown編輯器

你好! 這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章,了解一下Markdown的基本文法知識。

新的改變

我們對Markdown編輯器進行了一些功能拓展與文法支援,除了标準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:

  1. 全新的界面設計 ,将會帶來全新的寫作體驗;
  2. 在創作中心設定你喜愛的代碼高亮樣式,Markdown 将代碼片顯示選擇的高亮樣式 進行展示;
  3. 增加了 圖檔拖拽 功能,你可以将本地的圖檔直接拖拽到編輯區域直接展示;
  4. 全新的 KaTeX數學公式 文法;
  5. 增加了支援甘特圖的mermaid文法1 功能;
  6. 增加了 多螢幕編輯 Markdown文章功能;
  7. 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位于編輯區域與預覽區域中間;
  8. 增加了 檢查清單 功能。

功能快捷鍵

撤銷:Ctrl/Command + Z

重做:Ctrl/Command + Y

加粗:Ctrl/Command + B

斜體:Ctrl/Command + I

标題:Ctrl/Command + Shift + H

無序清單:Ctrl/Command + Shift + U

有序清單:Ctrl/Command + Shift + O

檢查清單:Ctrl/Command + Shift + C

插入代碼:Ctrl/Command + Shift + K

插傳入連結接:Ctrl/Command + Shift + L

插入圖檔:Ctrl/Command + Shift + G

合理的建立标題,有助于目錄的生成

直接輸入1次#,并按下space後,将生成1級标題。

輸入2次#,并按下space後,将生成2級标題。

以此類推,我們支援6級标題。有助于使用

TOC

文法後生成一個完美的目錄。

如何改變文本的樣式

強調文本 強調文本

加粗文本 加粗文本

标記文本

删除文本

引用文本

H2O is是液體。

210 運算結果是 1024.

插傳入連結接與圖檔

連結: link.

圖檔:

從原理上搞懂編碼——究竟什麼是編碼?什麼是解碼?什麼是位元組流?歡迎使用Markdown編輯器

帶尺寸的圖檔:

從原理上搞懂編碼——究竟什麼是編碼?什麼是解碼?什麼是位元組流?歡迎使用Markdown編輯器

當然,我們為了讓使用者更加便捷,我們增加了圖檔拖拽功能。

如何插入一段漂亮的代碼片

去部落格設定頁面,選擇一款你喜歡的代碼片高亮樣式,下面展示同樣高亮的

代碼片

.

// An highlighted block
var foo = 'bar';
           

生成一個适合你的清單

  • 項目
    • 項目
      • 項目
  1. 項目1
  2. 項目2
  3. 項目3
  • 計劃任務
  • 完成任務

建立一個表格

一個簡單的表格是這麼建立的:

項目 Value
電腦 $1600
手機 $12
導管 $1

設定内容居中、居左、居右

使用

:---------:

居中

使用

:----------

居左

使用

----------:

居右

第一列 第二列 第三列
第一列文本居中 第二列文本居右 第三列文本居左

SmartyPants

SmartyPants将ASCII标點字元轉換為“智能”印刷标點HTML實體。例如:

TYPE ASCII HTML
Single backticks

'Isn't this fun?'

‘Isn’t this fun?’
Quotes

"Isn't this fun?"

“Isn’t this fun?”
Dashes

-- is en-dash, --- is em-dash

– is en-dash, — is em-dash

建立一個自定義清單

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何建立一個注腳

一個具有注腳的文本。2

注釋也是必不可少的

Markdown将文本轉換為 HTML。

KaTeX數學公式

您可以使用渲染LaTeX數學表達式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通過歐拉積分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞​tz−1e−tdt.

你可以找到更多關于的資訊 LaTeX 數學表達式here.

新的甘特圖功能,豐富你的文章

  • 關于 甘特圖 文法,參考 這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面産生的一個序列圖::

這将産生一個流程圖。:

  • 關于 Mermaid 文法,參考 這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖:

  • 關于 Flowchart流程圖 文法,參考 這兒.

導出與導入

導出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章導出 ,生成一個.md檔案或者.html檔案進行本地儲存。

導入

如果你想加載一篇你寫過的.md檔案或者.html檔案,在上方工具欄可以選擇導入功能進行對應擴充名的檔案導入,

繼續你的創作。

  1. mermaid文法說明 ↩︎
  2. 注腳的解釋 ↩︎