天天看點

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

在英文的行文中,單詞和單詞之間是以空格作為自然分界符的

中文的字、句和段,通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符

中文分詞比英文分詞要複雜、困難得多

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

中文分詞做不好,會怎樣?

分詞作為自然語言處理的第一道關卡,分詞的品質好壞,直接決定了語言處理是否有歧義,并把歧義發生機率通過學習進一步降低

例子1:

今天,下雨?(優秀)

今,天下,雨?(良好)

今,天,下,雨?(失敗)

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

三者都是在進行中文分詞,2和3不能說他們分得不對,但是放進自然語言語境呢,就徹底變味了

例子2:

不知您是否被自己愛車上的語音導航惹毛過?

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

人:導航你好,我要去天安門!

機:你好,您要去什麼門?

人:天安門!天安門廣場!

機:。。。。。。

人:天安門廣場!天安門廣場!

機:正在為您查找附近的天安門廣場

機:您要去哪個天安門廣場?

為何這麼高大上的東東,如此低智商?

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

人和機器能不能平等對話了?人和機器能不能平等對話了?

實測開始

抓取待分析文本

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

中文分詞

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

關鍵詞權重分析

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

模拟矩陣

中文自然語言處理stopword下載下傳_人機平等對話基礎,自然語言處理技巧——中文分詞?...中文分詞做不好,會怎樣?實測開始中文分詞應用場景

矩陣降維處理繼續服務自然語言處理過程

中文分詞應用場景

人機互動,機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等