最近在处理文本多分类时,需要用到文本相似度计算,在github上找到了一个很不错的Python 第三方包。叫相识(Xiangshi)
具体的安装 方法为:
$ pip3 install xiangshi
$ pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple xiangshi
demo:
计算文本相似度:
余弦相似度计算:
import xiangshi as xs
xs.cossim(Input1, Input2)
其中input1和input2要以列表的形式作为传入参数。
更多的方法请参阅:kiwirafe/xiangshi: 中文文本相似度计算器 (github.com)
国内上不了github.com的小伙伴可以参阅:xiangshi: 中文文本相似度计算器 (gitee.com)