统计文本词频的几种方法（Python）_词频统计-程序员宅基地

技术标签：计算机等级二级Python python 人工智能大数据开发语言

1. 单句的词频统计

2. 文章的词频统计

方法一：运用集合去重方法

方法二：运用字典统计

方法三：使用计数器

词频统计是自然语言处理的基本任务，针对一段句子、一篇文章或一组文章，统计文章中每个单词出现的次数，在此基础上发现文章的主题词、热词。

1. 单句的词频统计

思路：首先定义一个空字典my_dict，然后遍历文章（或句子），针对每个单词判断是否在字典my_dict的key中，不存在就将该单词当作my_dict的key，并设置对应的value值为1；若已存在，则将对应的value值+1。

#统计单句中每个单词出现的次数
news = "Xi, also general secretary of the Communist Party of China (CPC) Central Committee and chairman of the Central Military Commission, made the remarks while attending a voluntary tree-planting activity in the Chinese capital's southern district of Daxing."

def couWord(news_list): 
    ##定义计数函数  输入：句子的单词列表 输出：单词-次数 的字典
    my_dict = {}  #空字典 来保存单词出现的次数
    for v in news_list:
        if my_dict.get(v):
            my_dict[v] += 1
        else:
            my_dict[v] = 1
    return my_dict

print(couWord(news.split ()))

输出

{‘Xi,’: 1, ‘also’: 1, ‘general’: 1, ‘secretary’: 1, ‘of’: 4, ‘the’: 4, ‘Communist’: 1, ‘Party’: 1, ‘China’: 1, ‘(CPC)’: 1, ‘Central’: 2, ‘Committee’: 1, ‘and’: 1, ‘chairman’: 1, ‘Military’: 1, ‘Commission,’: 1, ‘made’: 1, ‘remarks’: 1, ‘while’: 1, ‘attending’: 1, ‘a’: 1, ‘voluntary’: 1, ‘tree-planting’: 1, ‘activity’: 1, ‘in’: 1, ‘Chinese’: 1, “capital’s”: 1, ‘southern’: 1, ‘district’: 1, ‘Daxing.’: 1}

以上通过couWord方法实现了词频的统计，但是存在以下两个问题。

（1）未去除stopword

输出结果中保护’also’、‘and’、'in’等stopword（停止词），停止词语与文章主题关系不大，需要在词频统计等各类处理中将其过滤掉。

（2）未根据出现次数进行排序

根据每个单词出现次数进行排序后，可以直观而有效的发现文章主题词或热词。

改进后的couWord函数如下：

def couWord(news_list,word_list,N):
    #输入 文章单词的列表 停止词列表  输出：Top N的单词
    my_dict = {}  #空字典 来保存单词出现的次数
    for v in news_list:
        if (v not in word_list): # 判断是否在停止词列表中
            if my_dict.get(v):
                my_dict[v] += 1
            else:
                my_dict[v] = 1
                  
    topWord = sorted(zip(my_dict.values(),my_dict.keys()),reverse=True)[:N] 
    
    return topWord

加载英文停止词列表：

stopPath = r'Data/stopword.txt'
with open(stopPath,encoding = 'utf-8') as file:
    word_list = file.read().split()      #通过read()返回一个字符串函数，再将其转换成列表

print(couWord(news.split(),word_list,5))

输出

[(2, ‘Central’), (1, ‘voluntary’), (1, ‘tree-planting’), (1, ‘southern’), (1, ‘secretary’)]

2. 文章的词频统计

（1）单篇文章词频统计

通过定义读取文章的函数，对其进行大小写转换等处理，形成输入文章的单词列表。

https://python123.io/resources/pye/hamlet.txt

以上为hamlet英文版文本的获取路径，下载完成后保存到工程路径下。

使用open()函数打开hamlet.txt文件，并使用read()方法读取文件内容，将文本保存在txt变量中。

def readFile(filePath): 
    #输入： 文件路径  输出：字符串列表
    with open(filePath,encoding = 'utf-8') as file:
        txt = file.read().lower() #返回一个字符串,都是小写
        words = txt.split()      #转换成列表 
    
    return words

filePath = r'Data/news/hamlet.txt'
new_list = readFile(filePath)  #读取文件
print(couWord(new_list,word_list,5))

接下来，我们需要对文本进行预处理，去除标点符号、分割成单词等。我们可以使用正则表达式来实现这一步骤。

import re

# 去除标点符号
text = re.sub(r'[^\w\s]', '', text)

# 分割成单词
words = text.split()

我们使用re.sub()函数和正则表达式[^\w\s]来去除标点符号，然后使用split()方法将文本分割成单词，并将结果保存在words列表中。

或者：

我们的文本中含有标点和字符的噪声数据，所以要进行数据的清洗，将文档全部处理为只有我们需要的字母类型（为方便操作，用空格替换噪声数据，将文档全部转化为小写字母）

打开文件，进行读取，清洗数据，数据归档。

def getText():
    txt = open("Hmlet.txt","r").read()
    txt = txt.lower()
    for ch in '!@#$%^&*()_/*-~':
        txt = txt.replace(ch," ")
    return txt


hamlet = getText()
words = hamlet.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1

items = list(counts.items())
items.sort(key= lambda x:x[1],reverse=True)
for i in range(10):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

现在，我们已经得到了分割后的单词列表words，接下来我们需要统计每个单词出现的次数。我们可以使用Python的字典数据结构来实现词频统计。

word_counts = {}

for word in words:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

这段代码中，我们首先创建一个空字典word_counts，然后遍历words列表中的每个单词。对于每个单词，如果它已经在word_counts字典中存在，则将对应的计数值加1；否则，在字典中新增一个键值对，键为单词，值为1。

在统计完词频后，我们需要按照词频降序排序，以便后续输出结果。我们可以使用Python的内置函数sorted()来实现排序。

sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

我们使用word_counts.items()方法获取word_counts字典中的所有键值对，并使用key=lambda x: x[1]指定按照键值对中的值进行排序，reverse=True表示降序排列。排序结果将保存在sorted_word_counts列表中。

最后，我们将词频统计结果输出到控制台或文件中。

for word, count in sorted_word_counts:
    print(f'{word}: {count}')

这段代码中，我们使用for循环遍历sorted_word_counts列表中的每个元素（每个元素是一个键值对），并使用print()函数输出单词和对应的词频。

（2）多篇文章词频统计

需要使用os.listdir方法读取文件夹下的文件列表，然后对文件逐一进行处理。

import os 
folderPath = r'Data/news' #文件夹路径
tmpFile = os.listdir(folderPath)
allNews = []
for file in tmpFile:  #读取文件
    newsfile = folderPath + '//' + file #拼接完整的文件路径  \\ 转义字符
    allNews += readFile(newsfile)   #把所有的字符串列表拼接到allText中
    
print(couWord(allNews,word_list,5))

输出

[(465, ‘china’), (323, ‘chinese’), (227, ‘xi’), (196, “china’s”), (134, ‘global’)]

（3）中文文章的处理

对于中文文章的词频统计，首先要使用jieba等分词器对文章进行分词，并且加载中文的停止词列表，再进行词频统计。

3.三国演义人物出场频数

利用jieba库，进行中文分词，将其存入列表words中，遍历，将词组和词频作为键值对存入列表counts中，利用列表的有序性，进行排序，然后输出

https://python123.io/resources/pye/threekingdoms.txt

以上为三国演义中文版文本获取链接，下载后保存到工程路径下

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
counts = {}
words = jieba.lcut(txt)
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1] , reverse=True)
for i in range(15):
    word , count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

该方法比英文哈姆雷特词频简单，不用去处理字符类噪声数据，这也得益于jieba库的简易操作。

但随之带来的是词频的模糊，因为jieba库的特性，导致不是人名的词组也被统计了进来。

如结果中的“二人”、”孔明曰“，这些都是冗余和词组问题的错误。

所以我们应该还需要进行进一步的处理，让词频统计人物的名字次数

经过前几步的操作，我们输出了出现频率最高的15给词组，可我们如果想要人物的出场频率呢？这就需要对原文件进行过滤，把我们不需要的输出删除。

因为之前的输出可以简单的获取到出现频率高但不是人名的词组，所以我们这里把它们储存到一个集合中，遍历并删除原文件中存在的这些词组。

excludes = {"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右","军马"}

for i in excludes:
    del counts[i]

冗余处理：把出现频率高的相同人物别名进行统一

 elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word ==  "丞相":
        rword = "曹操"

反复的经过这些处理，我们可以得到我们想要的输出

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
counts = {}
excludes = {"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右","军马"}
words = jieba.lcut(txt)
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word ==  "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for i in excludes:
    del counts[i]
items = list(counts.items())
items.sort(key = lambda x:x[1] , reverse=True)
for i in range(7):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

方法一：运用集合去重方法

def word_count1(words,n):

word_list = []

for word in set(words):

num = words.counts(word)

word_list.append([word,num])

word_list.sort(key=lambda x:x[1], reverse=True)

for i in range(n):

word, count = word_list[i]

print('{0:<15}{1:>5}'.format(word, count))

说明：运用集合对文本字符串列表去重，这样统计词汇不会重复，运用列表的counts方法统计频数，将每个词汇和其出现的次数打包成一个列表加入到word_list中，运用列表的sort方法排序，大功告成。

方法二：运用字典统计

def word_count2(words,n):

counts = {}

for word in words:

if len(word) == 1:

continue

else:

counts[word] = counts.get(word, 0) + 1

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(n):

word, count = items[i]

print("{0:<15}{1:>5}".format(word, count))

方法三：使用计数器

def word_count3(words,n):

from collections import Counter

counts = Counter(words)

for ch in "": # 删除一些不需要统计的元素

del counts[ch]

for word, count in counts.most_common(n): # 已经按数量大小排好了

print("{0:<15}{1:>5}".format(word, count))

本文链接：https://blog.csdn.net/greatau/article/details/134044945

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

计算机丢失concrt140,小编教你解决concrt140 dll 【解决教程】的技巧_-程序员宅基地

文章浏览阅读4.5w次。近日有小伙伴发现电脑出现问题了，在突然遇到concrt140 dll时不知所措了，对于concrt140 dll带来的问题，其实很好解决concrt140 dll带来的问题，下面小编跟大家介绍concrt140 dll解决方法：丢失CONCRT140.dll，怎么办？答：分析及解决：网上下载这个DLL文件，将其放置到system32目录下面。重启系统，或者在CMD下面运行regsvr32*.dl..._concrt140.dll下载教程

微信小程序源码案例大全_微信小程序switch页面demo-程序员宅基地

文章浏览阅读4.3k次，点赞4次，收藏62次。微信小程序demo：足球，赛事分析小程序简易导航小程序demo：办公审批小程序Demo：电魔方小程序demo：借阅伴侣微信小程序demo：投票微信小程序demo：健康生活小程序demo：文章列表demo 微商城（含微信小程序）完整源码+配置指南微信小程序Demo：一个简单的工作系统微信小程序Demo：用于聚会的小程序微信小程序Demo：Growth 是一款..._微信小程序switch页面demo

SLAM学习笔记(Code2)----刚体运动、Eigen库_eigen.determinant-程序员宅基地

文章浏览阅读2.2k次。2.1除了#include<iostream>之外的头文件#include <Eigen/Core>//Core:核心#include <Eigen/Dense>//求矩阵的逆、特征值、行列式等#include <Eigen/Geometry>//Eigen的几何模块，可以利用矩阵完成如旋转、平移/***其他***/#include <ctime>//可用于计时，比较哪个程序更快#include <cmath>//包含a_eigen.determinant

图像梯度-sobel算子-程序员宅基地

文章浏览阅读1w次，点赞12次，收藏61次。（1）理论部分x 水平方向的梯度，其实也就是右边 - 左边，有的权重为1，有的为2 。若是计算出来的值很大说明是一个边界。y 竖直方向的梯度，其实也就是下面减上面，权重1，或2 。若是计算出来的值很大说明是一个边界。图像的梯度为：有时简化为：即：（2）程序部分函数：Sobelddepth 通常取 -1，但是会导致结果溢出，检测不出边缘，故使..._sobel算子

cuda10.1和cudnn7.6.5百度网盘下载链接（Linux版）_cudnn7.6网盘下载-程序员宅基地

文章浏览阅读3.6k次，点赞17次，收藏8次。cuda10.1和cudnn7.6.5百度网盘下载链接（Linux版）在官网下载不仅慢，，，主要是还总失败。。终于下载成功了，这里给出百度网盘下载链接，希望可以帮到别人百度网盘下载链接提取码: vyg5_cudnn7.6网盘下载

Python正则表达式大全-程序员宅基地

文章浏览阅读9.3w次，点赞69次，收藏427次。定义：正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。上面都是官方的说明，我自己的理解是（仅供参考）：通过事先规定好一些特殊字符的匹配规则，然后利用这些字符进行组合来匹配各种复杂的字符串场景。比如现在的爬虫和数据分析，字符串校验等等都需要用_python正则表达式

随便推点

NILM（非侵入式电力负荷监测）学习笔记 —— 准备工作（一）配置环境NILMTK Toolkit_nilmtk学习-程序员宅基地

文章浏览阅读1.9w次，点赞27次，收藏122次。安装Anaconda，Python，pycharm我另一篇文章里面有介绍https://blog.csdn.net/wwb1990/article/details/103883775安装NILMTK有了上面的环境，接下来进入正题。NILMTK官网：http://nilmtk.github.io/因为官方安装流程是基于linux的（官方安装流程），我这里提供windows..._nilmtk学习

k8s-pod 控制器-程序员宅基地

文章浏览阅读826次，点赞20次，收藏28次。如果实际 Pod 数量比指定的多那就结束掉多余的，如果实际数量比指定的少就新启动一些Pod，当 Pod 失败、被删除或者挂掉后，RC 都会去自动创建新的 Pod 来保证副本数量，所以即使只有一个 Pod，我们也应该使用 RC 来管理我们的 Pod。label 与 selector 配合，可以实现对象的“关联”，“Pod 控制器” 与 Pod 是相关联的 —— “Pod 控制器”依赖于 Pod，可以给 Pod 设置 label，然后给“控制器”设置对应的 selector，这就实现了对象的关联。