天天看点

Py之zhon:zhon库的简介、安装、使用方法之详细攻略

zhon库的简介

        Zhon是一个Python库,它提供了中文文本处理中常用的常量。

包括常用常量:

中日韩文字和部首

中文标点符号

汉语句子规则表达模式

拼音元音、辅音、小写、大写和标点符号

拼音音节、单词和句子规则表达模式

诸印文字

竹音音节规则表达模式

CC-CEDICT字符

zhon库的安装

pip install zhon

Py之zhon:zhon库的简介、安装、使用方法之详细攻略

zhon库的使用方法

1、在字符串中查找CJK字符、验证拼音音节、单词或句子:

在字符串中查找CJK字符:

>>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.')

['我', '打', '破', '了', '一', '个', '盘', '子']

验证拼音音节、单词或句子:

>>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)

['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē']

>>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)

['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē']

>>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)

['Yuànzi lǐ tíngzhe yí liàng chē.']