Python自然語言處理筆記(七)------詞典資源

2023-06-27 03:39:42

一. NLTK中的詞典資源

詞典或詞典資源是一個詞或短語及其相關資訊的集合。

1. 詞彙清單語料庫

詞彙語料庫是UNIX中的/usr/dict/words檔案，被一些拼寫檢查程式所使用。可用來尋找文本語料中不常見的或拼寫錯誤的詞彙。

(1). 過濾文本

Python自然語言處理筆記(七)------詞典資源

2. 停用語料詞庫

停用語料詞庫包括的是高頻詞彙，如the,to,和and,有時在進一步進行處理之前需要将它們從文檔中過濾。停用詞通常沒有什麼詞彙内容，但它們的出現會使區分文本變得困難。

（1）NLTK中的停用語料詞庫

Python自然語言處理筆記(七)------詞典資源

（2）過濾停用詞

例：定義一個函數來計算文本中不包含在停用清單中的詞所占的比例。

Python自然語言處理筆記(七)------詞典資源

3. 名字語料庫

名字語料庫包含8000個按性别分類的名字。男性和女性的名字存儲在單獨的檔案中。

（1）找到同時出現在兩個檔案中的名字即分辨不出性别的名字。

Python自然語言處理筆記(七)------詞典資源

（2）研究男性與女性名字結尾的字母

Python自然語言處理筆記(七)------詞典資源

4.表格詞典

表格詞典：在每一行含有一個詞及其一些性質

（1）CMU發音詞典

CMU發音詞典為語音合成器而設計。

Python自然語言處理筆記(七)------詞典資源

對任意一個詞，詞典資源都有語音的代碼，不同的聲音有不同的标簽（音素）

（2）比較詞典

斯瓦蒂士核心詞清單：包含幾種語言的約200個常用詞的清單，語言辨別符使用ISO639雙字母碼。

通過使用entries()方法來指定一個語言連結清單來通路多語言中的同源詞，而且還可以把它轉換成一個簡單的詞典。

Python自然語言處理筆記(七)------詞典資源

swadesh.fileids()獲得的是語言的類别。

swadesh.words('en')獲得的是英語語言下的詞清單。

可以使用該詞表實作一個小小的翻譯器（法語，德語，西班牙語翻譯成英文）

Python自然語言處理筆記(七)------詞典資源

繼續閱讀