天天看點

[NLP]自然語言了解概述

語言是人類有别于其他動物的一個重要标志。自然語言是差別于形式語言或人工語言(如邏輯語言和程式設計語言等)的人際交流的口頭語言(語音)和書面語言(文字)。

1、語言與語言了解

語言是人類進行通信的自然媒介,它包括口語、書面語以及形體語(如啞語和旗語)等。一種比較正規的提法是:語言是用于傳遞資訊的表示方法、約定和規則的集合。語言由語句組成,每個語句又由單詞組成;組成語句和語言時,應遵循一定的文法與語義規則。語言由語音、詞彙和文法構成。語言和文字是構成語言的兩個基本屬性。如果沒有各種口語和書面語,如英語、漢語、法語和德語等,人類之間的充分和有效的交流就難以想象。語言是随着人類社會和人類本身的發展而不斷進化的。現代語言允許任何一個具有正常語言能力的人與他人交流思想感情和技術等。

要研究自然語言了解,首先必須對自然語言的構成有個基本的認識。

語言是音義結合的詞彙和文法體系,是實作思維活動的物質形式。語言是一個符号體系,但與其他符号體系又有所差別。

語言是以詞為基本機關的,詞彙又受到文法的支配才可構成有意義的和可了解的句子,句子按一定的形式再構成篇章等。詞彙又可分為詞和熟語,熟語就是一些詞的固定組合,如漢語中的成語。詞又由詞素構成,如“教師”是由“教”和“師”構成。

文法是語言的組織規律。文法規則制約着如何把詞素構成詞,詞構成詞組和句子。語言正是在這種嚴密的制約關系中構成的。用詞素構成詞的規則叫構詞規則,如教+師->教師。一個詞又有不同的詞形、單數、複數、陰性、陽性等。這種構造詞形的規則叫做構形法,如教師+們->教師們。構形法和構詞法稱為詞法。詞法中的另一部分就是句法。句法也可分成兩部分:詞組構造法和造句法。詞組構造法是詞搭配成詞組的規則,如紅+鉛筆->紅鉛筆。這裡”紅“是一個修飾鉛筆的形容詞,它與名稱”鉛筆“組合成了一個新的名詞。造句法則是用詞或詞組造句的規則。”我是計算機專業的學生“,這是按照漢語造句法構造的句子。

另一方面,語言是音義結合的,每個詞彙有其語音形式。一個詞的發音由一個或多個音節組合而成,音節又由音素構成,音素分為元音音素和輔音音素。自然語言中所涉及的音素不多,一種語言一般隻有幾十個音素。由一個發音動作所構成的最小的語音機關就是音素。

迄今為止,對語言了解尚無統一和權威的定義,按照考慮問題的角度不同而有所不同的解釋。從微觀上講,語言了解是從自然語言到機器内部之間的一種映射。從宏觀上講,語言了解是指機器能夠執行人類所期望的某些語言功能。這些功能包括

  • 回答有關提問
  • 提取材料摘要
  • 不同詞語叙述
  • 不同語言翻譯

然而,對自然語言的了解卻是一個十分艱難的任務。即使建立一個隻能了解片言斷語的計算機系統,也是很不容易的。這中間有大量的極為複雜的編碼和解碼問題。一個能夠了解自然語言的計算機系統就像一個人那樣需要上下文知識以及根據這些知識和資訊進行推理的過程。自然語言不僅有語義、文法和語言問題,而且還存在模糊性等問題。具體的說,自然語言了解的困難由下列三個因素引起的:

  1. 目标表示的複雜性
  2. 映射類型的多樣性
  3. 源表達中各元素間互動程度的差異性

自然語言了解是語言學、邏輯學、生理學、心理學、計算機科學和數學等相關學科發展和結合而形成的一門交叉學科,它能夠了解口頭語言或書面語言。語言交流是一種基于知識的通信。

2、自然語言處理的概念和定義

自然語言處理是用計算機對人類的口頭和書面形式的自然語言進行加工處理和應用的技術,是一門它設計語言學、數學、計算機科學和控制論等多門學科交叉的邊緣學科,是人工智能學科和智能科學的一個重要分支,也是人工智能的早期的和活躍的研究領域。

自然語言處理包括自然語言了解和自然語言生成兩個方面。自然語言了解系統把自然語言轉化成計算機程式更易于處理和了解的形式。自然語言生成系統則把與自然語言有關的計算機資料轉化為自然語言。

3、自然語言處理的研究領域概括

  1. 文字識别(optical character recognition,OCR)
  2. 語音識别(speech recognition)
  3. 機器翻譯(machine translation)
  4. 自動文摘(automatic summarization)
  5. 句法分析(syntax parsing)
  6. 文本分類(text categorization)
  7. 資訊檢索(information retrieval)
  8. 資訊擷取(Information extraction)
  9. 資訊過濾(information filtering)
  10. 自然語言生成(natural language generation)
  11. 中文自動分詞(Chinese word segmentation)
  12. 語音合成(speech synthesis)
  13. 問答系統(question answering system)

4、自然語言了解過程的層次

語言雖然表示成一連串的文字元号或者一串聲音流,但其内部事實上是一個階層化的結構,從語言的構成中就可以清楚的看到這種層次性。一個文字表達的句子是由詞素->詞或詞形->詞組或句子,而用聲音表達的句子則是由音素->音節->音詞->音句,其中每個層次都受到文法規則的制約。是以,語言的分析和了解過程也應當是一個階層化的過程。許多現代語言學家把這一過程分為5個層次:

  1. 語音分析
  2. 詞法分析
  3. 句法分析
  4. 語義分析
  5. 語用分析

參考書目

人工智能及其應用(蔡自興 徐光祐)

繼續閱讀