NLTK获取文章摘要代码示例

2023-04-23 16:13:58

import sys
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer


# 获取文章摘要
# 一旦有了no_of_nouns和no_of_ners分数的列表，就可以利用这些分数，创建更复杂的规则。
# 例如，一个典型的新闻报道将从相关话题的重要细节开始，最后一句话是整个故事的总结
f = open('nyt.txt', 'r')
news_contents = f.read()
result = []
# 句子标记解析
for sent_no, sentence in enumerate(nltk.sent_tokenize(news_contents)):
    no_tokens_of = len(nltk.word_tokenize(sentence))  # 单词标记解析
    tagged = nltk.pos_tag(nltk.word_tokenize(sentence))  # 词性标注
    no_of_nouns = len([word for word, pos in tagged if pos in ['NN', 'NNP']])  # 获取所有名词
    ners = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sentence)), binary=False)  # 命名实体识别
    no_of_ners = len([chunk for chunk in ners if hasattr(chunk, 'label')])
    score = (no_of_ners + no_of_nouns)/float(no_tokens_of)
    result.append((sent_no, no_tokens_of, no_of_ners, no_of_nouns, score, sentence))


for sent in sorted(result, key=lambda x: x[4], reverse=True):
    print(sent[5])

print(result)


# 这种摘要的另一个理论是重要的句子通常包含重要的单词，在整个语料库中，大部分判别性的单词都非常重要。
# 包含了判别性强的单词的句子也非常重要。一个非常简单的测量方法是计算各个单词的TF-IDF（词频-逆文件频率）的分数，
# 然后寻找由重要单词归一化得到的平均分数。可以将此平均分数作为标准，选择摘要句子。
# tf/idf
# from sklearn.feature_extraction.text import TfidfVectorizer
results = []
sentences = nltk.sent_tokenize(news_contents)
vectize = TfidfVectorizer(norm='l2', min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True)
sklearn_binary = vectize.fit_transform(sentences)
# print(countvectorizer.get_feature_names())
print(sklearn_binary.toarray())
for i in sklearn_binary.toarray():
    results.append(i.sum() / float(len(i.nonzero()[0])))


# 机器翻译

NLTK获取文章摘要代码示例

继续阅读

运输计划洛谷P2680题目链接题目描述输入输出格式样例思路

如何降低程序员的工资？【你中招没】

大厂 2 个 Vue 高级实践技巧总结，效率提升 80%！

亲历！腾讯CDG某空降总监如何职场PUA无辜员工？

使用NLTK做电影评论分析

转贴一篇关于NLTK的中文文章

python3 使用nltk 进行名实体识别时，报错UnicodeError：“ascii” codec cannot decode “x08d” 解决方案

NLTK CrossValidationProbDist的一个bug

自然语言处理学习9：NLTK中BigramCollocationFinder的使用

NLP原理及基础

Learning for NLTK note1

坑3:1.1.2其他语言文本切分

这里不适合做技术

曹德旺的商业哲学：如果你对谁都不相信，必将一事无成

复习2个月拿下美团offer，我都做了些啥

干货，做视频号「张小龙」不会告诉你的 7 个要点