天天看點

Python自然語言處理筆記(七)------詞典資源

一. NLTK中的詞典資源

詞典或詞典資源是一個詞或短語及其相關資訊的集合。

1. 詞彙清單語料庫

詞彙語料庫是UNIX中的/usr/dict/words檔案,被一些拼寫檢查程式所使用。可用來尋找文本語料中不常見的或拼寫錯誤的詞彙。

(1). 過濾文本

Python自然語言處理筆記(七)------詞典資源

2. 停用語料詞庫

停用語料詞庫包括的是高頻詞彙,如the,to,和and,有時在進一步進行處理之前需要将它們從文檔中過濾。停用詞通常沒有什麼詞彙内容,但它們的出現會使區分文本變得困難。

(1)NLTK中的停用語料詞庫

Python自然語言處理筆記(七)------詞典資源

 (2)過濾停用詞

例:定義一個函數來計算文本中不包含在停用清單中的詞所占的比例。

Python自然語言處理筆記(七)------詞典資源

 3. 名字語料庫

名字語料庫包含8000個按性别分類的名字。男性和女性的名字存儲在單獨的檔案中。

(1)找到同時出現在兩個檔案中的名字即分辨不出性别的名字。

Python自然語言處理筆記(七)------詞典資源

(2)研究男性與女性名字結尾的字母

Python自然語言處理筆記(七)------詞典資源

4.表格詞典

表格詞典:在每一行含有一個詞及其一些性質

(1)CMU發音詞典

CMU發音詞典為語音合成器而設計。

Python自然語言處理筆記(七)------詞典資源

對任意一個詞,詞典資源都有語音的代碼,不同的聲音有不同的标簽(音素) 

(2)比較詞典

斯瓦蒂士核心詞清單:包含幾種語言的約200個常用詞的清單,語言辨別符使用ISO639雙字母碼。

通過使用entries()方法來指定一個語言連結清單來通路多語言中的同源詞,而且還可以把它轉換成一個簡單的詞典。

Python自然語言處理筆記(七)------詞典資源

swadesh.fileids()獲得的是語言的類别。

swadesh.words('en')獲得的是英語語言下的詞清單。

可以使用該詞表實作一個小小的翻譯器(法語,德語,西班牙語翻譯成英文)

Python自然語言處理筆記(七)------詞典資源
Python自然語言處理筆記(七)------詞典資源