當我們閱讀英文時,如果單詞之間沒了空格,一個句子在我們看來會變成!@#¥%……&*()這樣的一串近似亂碼的字元。然而,當我們在中文句子的詞與詞之間添加空格時,似乎又顯得有些備援,例如 當 你 看到 這 句 話 的 時候……
不加空格的英文與加空格的中文 (圖檔來源:編輯自制)
事實上,即使對于英語母語者來說,用空格分隔單詞對閱讀也是十分必要的。那麼,為什麼英語需要空格來分隔單詞,而中文卻不需要呢?這種差異背後有什麼深層原因?中國科學院心理研究所的科學家們通過研究,發現這裡面有一個“經濟”問題。
空格自帶“資訊量”,中英文裡還不一樣
英語作為一種字母書寫系統,每個字母表示一個音素,通常由多個字母組成一個單詞。英國文本用空格清晰而明确地标記了一個詞的起始和結束位置,即詞邊界。中文就不需要标記詞邊界麼?
中文是一種典型的表意書寫系統,每個漢字表示一個音節或語素。中文文本由連續的漢字組成,不同的詞之間沒有用空格分隔。大多數中文詞可以用一到兩個漢字表示,詞長較短且變化較小(平均詞長為1.40個漢字,标準差為0.57)。是以,中文讀者在閱讀時容易預測詞的長度,進而更快識别詞的開始和結束位置,即中文詞邊界位置的不确定性較小。
相比之下,英語單詞往往由多個字母組成,且詞長的變化較大(平均詞長為3.78個字母,标準差為2.04),這使得英語讀者較難預測每個單詞的開始和結束位置,即英語詞邊界位置的不确定性較大。
研究者基于大規模語料庫,運用資訊論方法量化了27種語言中空格為确定詞邊界提供的資訊量。研究結果表明,不同書寫系統是否采用空格标記詞邊界與空格提供的詞邊界資訊量有關:在采用空格的書寫系統如英語中,空格提供的資訊量更大(2.90比特);而在不采用空格的書寫系統如中文中,插入的空格提供的資訊量更小(1.10比特)。
27種語言中詞間空格為确定詞邊界提供的資訊量
空格資訊量差異的根本原因與不同書寫系中詞邊界位置的不确定性有關。中文詞邊界位置的不确定性較小,即使在詞和詞之間插入空格,其為确定詞邊界提供的額外資訊有限;而英語詞邊界位置不确定性較大,詞間空格可以為确定詞邊界提供更多的資訊量。
空格的“資訊量”,對讀者到底有啥用?
空格為詞邊界提供的資訊量反映了在閱讀無空格文本時,讀者為詞切分付出的認知努力。
在沒有空格的情況下,讀者需要将一行連續的字元串切分為不同的詞,即詞切分,也就是平時我們所說的“斷句”。在這個過程中,讀者需要利用語境資訊和語言知識進行詞切分。并且在一些情況下詞切分的結果可能是錯誤的,這時讀者需要檢測和修正詞切分錯誤。例如,不少讀者在看到“世界杯中日韓進入16強”這一新聞标題時,會将其切分為“世界杯/中日韓/進入16強”。而在閱讀了新聞内容後,讀者發現新聞并不像預想的那樣,進而意識到切分錯誤,并将标題的切分修正為“世界杯中/日韓/進入16強”。
讀者在詞切分過程和檢錯糾錯過程中付出的認知努力都将影響閱讀速率。英語的空格資訊量較大,文本去掉空格後,讀者需要付出更多認知努力進行詞切分,更容易出現詞切分錯誤;但中文如果在文本中插入空格,空格提供的資訊量較小,讀者不需要付出太多認知努力切分無空格文本。是以,英語傾向于使用空格以減少詞切分的認知負擔,而中文則選擇不使用空格。
與該研究發現一緻,以往研究表明改變詞邊界的标記方式對不同語言讀者的閱讀效率産生了不同影響。這些研究發現,在空格資訊量較大的書寫系統(如英語)中去掉空格,閱讀速率大幅下降約50%;而在空格資訊量較小的書寫系統(如中文),即使插入空格,閱讀速率也不會顯著提升。
詞邊界的标記方式對閱讀效率的影響
用空格與不用空格,都是為了更“經濟”?
英語選擇用空格,中文選擇不用空格,這可能都是為了實作閱讀的經濟性而做出的選擇。
在閱讀時,一個注視點的視覺感覺範圍有限,空格的插入會導緻讀者在一個注視點上感覺的字元變少,進而降低視覺感覺效率。對中文而言,插入的空格提供的資訊量小,讀者不需要付出太多的認知努力切分無空格的文本。是以,在中文中空格為詞切分帶來的效益不足以抵消它在視覺感覺方面導緻的代價,故中文不采用空格是更經濟的。相對地,英語等字母書寫系統中空格提供的資訊量較大,去掉空格會導緻讀者付出更多的認知努力進行詞切分。是以,對于英語,空格為詞切分帶來的效益遠大于它在視覺感覺方面導緻的代價。
由此可見,雖然不同書寫系統或采用或不采用空格标記詞邊界,但都是為了達到高效閱讀,在權衡詞切分需要付出的認知努力和閱讀時的視覺加工效率後,選擇了更經濟的詞邊界标記方式。
曆史演化的證據
從字母書寫系統的演化曆史來看,人們逐漸改革書寫系統,以實作最經濟的詞邊界标記。
曆史上,字母書寫系統并非始終使用空格标記詞邊界。由于轉錄的口語中沒有詞邊界資訊且書寫材料昂貴,早期書寫文本中沒有空格。讀者為了了解文本意義不得不出聲閱讀,導緻閱讀效率較低。這一時期的書寫系統僅由少數抄寫員或傳教士使用。直到文藝複興時期,随着大衆閱讀需求增加,這些書寫系統才逐漸加入詞間空格,提高了識字率和閱讀效率。由此可見,字母語言中加入詞間空格這一書寫系統的變革逐漸适應了人類的認知需求,更符合經濟性原則。
相較之下,中文文本在曆史上一直沒有使用空格來标記詞邊界。标點符号的使用降低了中文文本的閱讀難度,使句子邊界更加清晰,幫助讀者更快了解句子的結構和意思,進而提高了閱讀效率。
然而,即使在使用标點符号後,中文仍未像字母語言那樣采用詞間空格。這表明标點符号的使用足以減輕中文讀者閱讀中的認知負荷,而空格帶來的額外效益不足以抵消其對視覺加工效率的負面影響。中文這種與字母書寫系統不同的演化路徑也同樣遵循了經濟性原則,在保留原有書寫形式的基礎上,通過較少的改動有效提升了閱讀效率。
參考文獻:
[1] Bai, X., Yan, G., Liversedge, S. P., Zang, C., & Rayner, K. (2008). Reading spaced and unspaced Chinese text: Evidence from eye movements. Journal of Experimental Psychology: Human Perception and Performance, 34(5), 1277–1287.
[2] Gibson, E., Futrell, R., Piandadosi, S. T., Dautriche, I., Mahowald, K., Bergen, L., & Levy, R. (2019). How efficiency shapes human language. Trends in Cognitive Sciences, 23(5), 389–407.
[3] Huang, L., & Li, X. (2020). Early, but not overwhelming: The effect of prior context on segmenting overlapping ambiguous strings when reading Chinese. Quarterly Journal of Experimental Psychology, 73(9), 1382–1395.
[4] Huang, L., & Li, X. (2023). The effects of lexical-and sentence-level contextual cues on Chinese word segmentation. Psychonomic Bulletin & Review, 31, 293–302.
[5] Huang, L., Reichle, E. D., & Li, X. (2024). Comparative Analyses of the Information Content of Letters, Characters, and Inter-Word Spaces Across Writing Systems. Annals of the New York Academy of Sciences, 1537(1), 129–139.
[6] Huang, L., Staub, A., & Li, X. (2021). Prior context influences lexical competition when segmenting Chinese overlapping ambiguous strings. Journal of Memory and Language, 118, 104218.
[7] Li, X., Huang, L., Yao, P., & Hyönä, J. (2022). Universal and specific reading mechanisms across different writing systems. Nature Reviews Psychology, 1(3), 133–144.
[8] Ma, G., Li, X., & Rayner, K. (2014). Word segmentation of overlapping ambiguous strings during Chinese reading. Journal of Experimental Psychology: Human Perception and Performance, 40(3), 1046–1059.
[9] Rayner, K., Fischer, M. H., & Pollatsek, A. (1998). Unspaced text interferes with both word identification and eye movement control. Vision Research, 38(8), 1129–1144.
[10] Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.
[11] Veldre, A., Reichle, E. D., Yu, L., & Andrews, S. (2023). Understanding the visual constraints on lexical processing: New empirical and simulation results. Journal of Experimental Psychology: General, 152, 693–722.
作者:黃林潔瓊
作者機關:中國科學院心理研究所