注:本文節選自《SOD架構"企業級"應用資料架構實戰》一書之【2.1.1“數”的起源】,轉發自此圖書的線上試讀網站,更多内容可點選了解。
2.1 資料漫話史—抽象、表示與存儲
2.1.1“數”的起源
《山海經》、《周易》、《黃帝内經》并稱為"上古三大奇書",書中記述的事情年代久遠, 内容宏大而又神秘,其中都有“數術”方面的論述和演繹。《黃帝内經·素問·上古天真論》 說:
“上古之人,其知道者,法于陰陽,和于術數,食飲有節,起居有常,不妄作勞,故能 形與神俱,而盡終其天年,度百歲乃去。”
這段話是《黃帝内經》這部書有關人類養生方法的總則,是中國中醫養生文化的起源, 而這段話,點睛之筆正是“法于陰陽,和于術數”。術數,術,技術、方法、技巧;數,理 數、氣數、數字。
《廣雅》:“數,術也。”在筆者看來,這句話正揭示了數的起源和數的應用 與發展。
在舊石器時代晚期,人類實作了由猿人到人的轉變,通過使用工具進行勞動的過程使得 智力的發展出現了一個飛躍。在長期的生産生活中,原始人類觀察到了日起日落,陰晴圓缺, 食物的有和無,多和少這些對立的事物狀态。“陰陽”是中國上古先民對于天地萬物變化的 二進制狀态的一種“抽象”,基于這種抽象認知,發展出一套記述這些狀态的方法、技術,而 這正是數的概念起源。術數,術,技術、方法、技巧;數,理數、氣數、數字。《廣雅》:“數, 術也。”是以,由這種對立的二進制狀态創造了最初的數:“一”和“二”。注意,此時僅僅産 生了數的概念,但距離真正用符号來抽象表示産生“數字”概念,那已經是新石器時代的事 情了。
原始人類創造了數的概念後遇到的第一個挑戰就是如何表示這兩個數,但此時遠沒有到 用“陰陽”這兩個文字來表示兩種狀态的程度,那個時候文字還沒有産生。如果你穿越到舊 石器時代晚期,你怎麼向你原始族人表示“一”和“二”的概念呢?注意你沒有紙和筆,原 始人也聽不懂你說話,你的任務就是教會他們識别這兩個數。此時,你應該用什麼最合适的 方式來表示這兩個數呢?用兩顆石子?用兩個人?對不起對面的兩個原始人完全聽不懂你 在說什麼。用兩頭獵物?對不起你的本領已經完全退化哪裡有能力現場給族人打兩隻獵物 來?… 正當你仰天長歎根本無法完成這個艱巨的任務的時候,擡頭看見密密的樹林突然給 了你靈感:有了,用兩根樹枝,兩根一樣長的樹枝擺在地上,這個時候你準備變一個“戲法”, 将一和二的概念變化出來,因為你确信,不管是原始人還是現代人,人們對于變“戲法”總 是感興趣的。
第一步,在地上放一根樹枝,原始人不明白你這是要幹什麼,是以你得“煞有其事”的 用某種神秘的舞蹈動作和聲響,吸引他們的注意力,讓他們過來觀看。
第二步,在地上接着再放一根樹枝,原始人可能不解,你多出來一根樹枝要做什麼?
第三步,你拉來兩個原始人,讓他們分别站在兩根樹枝旁邊,每一根樹枝指向一個人。 原始人仍然不明白你要做什麼,但你們的肢體語言可能已經讓他們明白你要和他們做一個遊 戲。你得用某種聲響來加強這種認識,比如學他們的原始語言。
第四步,你将地上其中一根樹枝從中掰斷,示意樹枝指向的那個原始人離開遊戲“圈子”。
第五步,你将地上另外一根樹枝從中掰斷,示意樹枝指向的另外一個原始人也離開遊戲 “圈子”。
第六步,你向衆人展示這兩根掰斷的樹枝;緊接着,你重新拿出兩根完好的樹枝,邀請 人群中其他的原始人也來玩你的遊戲,重複第一步到第五步的過程,讓你的原始族人明白完 好的一根樹枝可以代表一個人,而一根掰斷的樹枝表示離開一個人,兩根樹枝可以代表兩個 人。注意,開始不要同時邀請三個人一起玩,因為這個時候原始族人還沒法了解“三”這個 概念。
友情提示:當您和您的原始族人玩這個遊戲的時候,一定要有所獎賞,或者在他們吃飽 喝足了來玩這個遊戲,否則,原始人也沒有這麼無聊陪你玩,小心打死你啊我可不負責任的, 哈哈!
以上故事純屬虛構,是否有類似情景也因為年代太過久遠而無法考證。但是,類似的這 種對“數”的概念的進行表述的行為越來越普遍了,人們逐漸發現有更多的數需要記錄,從 一、二逐漸發展到三,發展到十,計數的方法有用手指頭,用繩子打結,或者用石頭在岩壁 上刻畫線條等等。不過相比起來,“結繩計數”(如圖 2-1)這種方式更科學;用手指計數, 手指易變,用來做計算過程的臨時存儲可以,但不适合長久儲存;用刻畫石頭計數,結果不 友善攜帶。是以“結繩計數”方法就廣泛流傳開來了,早在《易經》中,就有“結繩而治” 的記載。到了近代,一些沒有文字的民族,仍然用“結繩記事”來傳播資訊。
圖 2-1 結繩記數
“結繩計數”是人們對于“數”的概念了解和數的表示運用上一個重要的裡程碑,它早 于文字的産生而發展的,每增加一個“節”表示增大一個數,就跟前面虛構的那個用樹枝表 示數的概念一樣,一根樹枝表示一個人,兩根樹枝表示兩個人,之後原始人就能明白,三根 樹枝能表示三個人。在這裡将使用一個重要的概念:序列。一排樹枝,一串繩結,甚至一行 石子,都是用相同的事物按順序排列組成一個“序列”,然後用序列的元素來表示一個“數”。
“序列”的重要特點就是它的元素有大小,元素排列是有序的,總是從大到小或者從小 到大的一種順序排列。比如現在進行資料庫查詢的時候,對某一列資料進行排序,排序之後 的這列資料就是一個序列。在數學概念上,序列的這個特征可以用一個“遞歸”函數來表示, 即序列裡面的一個元素總是比它前面一個元素大某個數或者小某個數。對于一個“自然數” 序列,這個定義可以表示成“自然數序列裡面,序列裡面的某個元素總是比它前面一個元素 要大一個數”。 前面已經知道,古人通過事物的二進制對立狀态,發現了最早的自然數:“一” 和“二”。現在“我們”即将教會原始人學習一個新的數:“三”。假設您還是前面那個穿越 的現代人,你隻需要再拿一根樹枝,按照從上到下的順序擺放,您告訴原始人,這可以表示 “三個原始人”。俗話說“事不過三”,以原始人目前的智力隻能明白到這個數了,再教下去 也是徒勞。
不過,雖然教會原始人學習更大的“數”很困難,但是借助于“序列”在數學上的遞歸 定義,可以教會計算機來表示更大的數。假設有一個自然數序列 SN,第 n 個數就是自然數 N,它總是比它之前一個自然數 m 大 1,那麼這個自然數序列可以表示成:
SN=[1 ,2,… ,m,n]
設函數 SN(n)的作用是計算序列 SN 中的第 n 個自然數 N,得到以下函數表達式:
N=SN(n)
等價于下面的表達式:
N=SN(m)+1
這就是表示自然數 N 的遞歸函數定義!
為了便于計算機處理,需要将序列進行簡化,首先簡化到隻有兩個數,也就是前面故事 裡面講的原始人最開始的認知水準,那麼上面的表達式可以推導出:
IF SN=[1,2]
THEN M=1,N=2
進一步簡化,假設這個序列隻有 1 個元素:
IF SN=[1]
THEN M=0,N=1
注意:數字 0 是很久以後才出現的概念,原始人還無法了解這個數字概念,這一步驟是 為了用計算機程式計算友善才進行的推導步驟。
進行最後的化簡,假設這個序列沒有任何元素,那麼第 N 個元素就是 0:
IF SN=[]
THEN M=NULL,N=0
上面這段對于自然數序列 SN 的函數推導過程,可以使用函數式程式設計語言的鼻祖--Lisp 語言來表示處理。Lisp 即清單處理語言,全名是 List Processor。Lisp 隻使用了很少文法 元素就定義了一套強大的語言,它的主要資料結構就是清單,隻使用很少的操作符來處理列 表,而這些操作符本身就是一個函數。是以,這裡的自然數序列 SN 可以使用 Lisp 語言的列 表來表示,比如下面的表達式:
(List 1 2 3)
複制
表示序列 SN=[1,2,3]。
這個清單也可以表示成下面這樣:
‘(1 2 3)
注意,這裡是用序列來表示自然數,因為對于原始人來說,目前根本沒有阿拉伯數字 1, 2,3,也還沒有中文數字一,二,三。那麼要表示數字“三”,隻能這樣:
‘(1 1 1)
或者
‘(A A A)
或者
‘(
)
比如手指,繩結,甚至到了現代,用随意的一個字母符号的序列也能表示“數”,比如 用 A 表示 1,用 AA 表示 2,用 AAA 表示 3… 這種表示數的方法是最簡單最有效的方法,這 些符号載體是“數”最原始的載體,如果把一條打滿了節的繩子看做一個“記憶體條”,是不 是很簡單直接的了解了計算機記憶體的使用原理了?是以,用“序列”來表示數,真是一個偉 大的發明!
下面,筆者使用 Lisp 語言程式來表達如何通過一個序列來定義任何一個自然數:
;LISP語言示例1
(defun my-number (lst)
(if (null lst)
0
(1+ (my-number (rest lst)))))
複制
這段 Lisp 程式的意思是定義一個處理序列 lst 的函數 my-number,
如果序列為空
那麼 傳回結果 0
否則 1+(之前一個數)
複制
注意,在前面設計的教原始人了解“數”的遊戲中,要告訴他們怎麼得到“之前一個數” 的辦法很簡單,直接從地上的那一排樹枝的頭或者尾拿掉一根樹枝就好了。Lisp 的函數 rest 的功能就是去除清單的第一個元素傳回剩餘元素構成的表,這樣,這個新的清單所表示的數 就是“之前一個數”了:
(my-number (rest lst))
複制
下面運作 my-number 這個函數來計算任意序列所表示的數字:
(my-number '(1 1))
輸出:2
(my-number '(1 1 1))
輸出:3
(my-number '(A A ))
輸出:2
(my-number '(A A A))
輸出:3
程式的運作效果如下圖 2-2 所示:
複制
圖 2-2 Lisp程式--數的序列定義示例
注:以上程式使用 Common Lisp 編寫,在 LispBox 中調試通過。
複制
讀到這裡,聰明的您可能發現,這不就是求一個清單的長度麼?沒錯,清單的長度就是 這個序列所表示的自然數的大小。這個長度可以很長,理論上,這樣的清單無限長,可以表 示無限大的數。
假設這個清單中的每一個元素所在的位置表示它所對應的數,那麼這個清單就是存儲這 些“數”的容器,假設它所在的位置可以通過一個指針迅速定位,通過移動指針的位置來标 記寫入或者讀取一個數。指針向前移動到一個位置,在這個位置寫下一個标記,表示目前位 置的元素有效;在這個位置擦除之前的标記,目前位置無效,指針回退上一個元素的位置。 這個過程如圖 2-3 所示。如果将這個清單看作是對一個無限長的紙帶所打的孔,那麼紙帶就 相當于是“數”的存儲器,操作紙帶的機器就是一個最簡單的“計算機”,上面定義處理“序 列”的函數 my-number 就是這樣的計算機。實際上這個機器它就是一部“圖靈機”。
圖2-3 圖靈機原理示意圖
可能思路跳躍的有點快,這裡簡單總結下,由事物二進制對立的狀态古人發現了最早的自 然數“一”和“二”,然後發展到了通過一種事物的“序列”來表示更多的自然數,古人發 明了“結繩計數”的方法。通過對“序列”的“遞歸定義”分析,發現了表示一個自然數内 在的數學原理,由這個原理的“程式化”定義,發現能夠處理“序列”的機器就是一部“圖 靈機”。有了圖靈機,就能進一步處理複雜的計算問題,最終根據圖靈機的原理建造了電子 計算機,直到現在的超級計算機它都沒有脫離這個計算的本質。
可見,“數”的本質就是計算。數的表示、處理就是計算的方法。《廣雅》:“數,術也。” 中國先賢們的智慧實在是無比深厚啊!
如果說“數”就是計算,那麼數的存儲表示就是“資料”,對“數”的處理就是計算的 方法,這個處理過程的表示就是常說的“程式”。可見“資料”和“程式”是等價的:資料 是程式,程式是資料。一種程式語言能夠展現出這個特點,Lisp 真是神奇的語言!