天天看點

AI時代到來,分享一款好用的本地語音識别輸入工具

作者:波導終結者

大家好,我是波導終結者。

這幾年AI的發展非常的迅速,也湧現出了不少好用的工具。我之前跟大家分享過,比如說人聲分離呀,語音和文字的互轉呀,這些工具都很實用。最近有不少廠家都在布局AI相關方面的應用,而在開源界,其實也有很多很不錯的項目或者大神。今天跟大家分享的就是一款非常好用的語音識别輸入工具,完全本地運作,無需聯網。

AI時代到來,分享一款好用的本地語音識别輸入工具

這個項目在github的位址是,作者HaujetZhao,項目名CapsWriter-Offline(之後統一用CapsWriter稱之),由于一些衆所周知,卻又不友善說的原因,這裡可能給不了大家直接的位址,這種東西确實需要一點點的門檻。項目開源,使用的是阿裡巴巴開源的 Paraformer 模型和标點符号模型。作者已經把Windows的可執行檔案和模型都做好打包了,理論上隻需要下載下傳解壓運作就可以。個人覺得有點搞笑的是中文語音輸入的模型隻有230MB大小,而标點符号模型卻有1GB大小,但怎麼樣也算非常小了。

AI時代到來,分享一款好用的本地語音識别輸入工具

這個項目的運作完全依賴于本地模型,但是杠精肯定會說,你這不是有服務端跟用戶端嗎?是的,相關的技術問題我也懶得科普,其實大部分工具都是這麼個模式,隻是把服務端跟用戶端一起打包隐藏起來了而已。這個項目所使用的服務端,因為技術原因隻支援win10,作者又很貼心的給用戶端提供了32位win7的版本,而已。如果你是win10本機運作,雖然需要服務端跟用戶端,但是我實測完全就是127.0.0.1的本機通路而已,不需要網際網路。

AI時代到來,分享一款好用的本地語音識别輸入工具

解壓完之後,目錄下的config.py是主要的配置檔案,使用記事本即可打開編輯,這裡我也把幾個比較重要的選項用紅框标注了出來。首先是識别模式,支援長按和按鍵切換開關兩種模式,我個人還是習慣使用長按。而預設的快捷鍵是大小寫鍵,這也正是此項目叫做CapsWriter的原因,我這裡是把它改成了鍵盤上的Scroll Lock鍵,知道這個鍵的都跟我一樣,是老家夥了吧。然後軟體還支援把輸入進行一個錄音,如果沒有需要的話,你可以關閉這個功能,以免占用硬碟空間。标點符号、阿拉伯數字的轉換、中英文之間是否有空格等,這些根據自己的實際使用習慣來調整,其他的預設就可以。

AI時代到來,分享一款好用的本地語音識别輸入工具

CapsWriter比較好用的是支援中文熱詞功能,識别率還挺高的。完全依賴本地離線模型的工具是有這個問題,就是你不太好去擴充詞庫,除非重新訓練模型。而熱詞功能就可以基本解決這個問題。

AI時代到來,分享一款好用的本地語音識别輸入工具

同時它還有英文熱詞的功能,但個人感覺識别準确度跟中文還是有一點差距。也不知道是我的英文不準,還是模型本來就側重于中文。

AI時代到來,分享一款好用的本地語音識别輸入工具

還有一些不屬于識别錯誤,但是是常用詞或者專有名詞替換的,也可以在hot-rule.txt裡進行設定。但不管怎麼樣,目前肯定是達不到百分百的正确率的,還是需要自己進行一些後期的校對。

AI時代到來,分享一款好用的本地語音識别輸入工具

在服務端跟用戶端視窗,也都可以看到每一句的識别結果。這篇文章也有一部分,我是使用語音識别來進行輸入的。當然,每一句每一個詞我都有進行校對,而且它也并不是AI生成文章,隻是換成了語音輸入而已。以目前的使用體驗來看,我覺得比不少的聯網或者收費工具都要來的好用,更别說手機上了。手機不管是各家的輸入法,還是什麼王者榮耀的語音識别,正确率基本都是零,每一句話都有好幾個的錯誤,真的是不堪大用。

AI時代到來,分享一款好用的本地語音識别輸入工具

這個項目的配置要求也非常低,僅對服務端要求64位WIN10,占用4G左右的系統記憶體。用戶端可以使用32位的win7,區域網路本地IP連接配接。另外,它還有什麼關鍵字、日志、視訊檔案轉錄等功能,但我覺得這并不是它的核心需求和強項。

感謝大家的觀看點贊和關注,有什麼疑問和需求,可以在評論區裡交流,我們下期再見。

Elgato Wave:3 USB電容麥克風話筒遊戲直播萊維特技術內建聲霸卡 ¥1259 購買