在英文的行文中,單詞和單詞之間是以空格作為自然分界符的
中文的字、句和段,通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符
中文分詞比英文分詞要複雜、困難得多
中文分詞做不好,會怎樣?
分詞作為自然語言處理的第一道關卡,分詞的品質好壞,直接決定了語言處理是否有歧義,并把歧義發生機率通過學習進一步降低
例子1:
今天,下雨?(優秀)
今,天下,雨?(良好)
今,天,下,雨?(失敗)
三者都是在進行中文分詞,2和3不能說他們分得不對,但是放進自然語言語境呢,就徹底變味了
例子2:
不知您是否被自己愛車上的語音導航惹毛過?
人:導航你好,我要去天安門!
機:你好,您要去什麼門?
人:天安門!天安門廣場!
機:。。。。。。
人:天安門廣場!天安門廣場!
機:正在為您查找附近的天安門廣場
機:您要去哪個天安門廣場?
為何這麼高大上的東東,如此低智商?
人和機器能不能平等對話了?人和機器能不能平等對話了?
實測開始
抓取待分析文本
中文分詞
關鍵詞權重分析
模拟矩陣
矩陣降維處理繼續服務自然語言處理過程
中文分詞應用場景
人機互動,機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等