最近在處理文本多分類時,需要用到文本相似度計算,在github上找到了一個很不錯的Python 第三方包。叫相識(Xiangshi)
具體的安裝 方法為:
$ pip3 install xiangshi
$ pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple xiangshi
demo:
計算文本相似度:
餘弦相似度計算:
import xiangshi as xs
xs.cossim(Input1, Input2)
其中input1和input2要以清單的形式作為傳入參數。
更多的方法請參閱:kiwirafe/xiangshi: 中文文本相似度電腦 (github.com)
國内上不了github.com的小夥伴可以參閱:xiangshi: 中文文本相似度電腦 (gitee.com)