zhon库的简介
Zhon是一个Python库,它提供了中文文本处理中常用的常量。
包括常用常量:
中日韩文字和部首
中文标点符号
汉语句子规则表达模式
拼音元音、辅音、小写、大写和标点符号
拼音音节、单词和句子规则表达模式
诸印文字
竹音音节规则表达模式
CC-CEDICT字符
zhon库的安装
pip install zhon
zhon库的使用方法
1、在字符串中查找CJK字符、验证拼音音节、单词或句子:
在字符串中查找CJK字符:
>>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.')
['我', '打', '破', '了', '一', '个', '盘', '子']
验证拼音音节、单词或句子:
>>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē']
>>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē']
>>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi lǐ tíngzhe yí liàng chē.']