Python统计文本词汇出现次数的实例代码
问题描述
有时在遇到一个文本需要统计文本内词汇的次数的时候,可以用一个简单的python程序来实现。
解决方案
首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。
图1txt文件内容
再通过open和read函数来读取文件:
open_file=open("text.txt") file_txt=open_file.read()
然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。
代码示例:
defwordcount(readtxt): readlist=readtxt.split() dict1={} forevery_worldinreadlist: ifevery_worldindict1: dict1[every_world]+=1 else: dict1[every_world]=1 returndict1 print(wordcount(file_txt))
这里加了def函数把该程序封装成一个函数。
最后输出得到词汇出现的字典:
图2形成字典
ps:下面看下python统计文本中每个单词出现的次数
1.python统计文本中每个单词出现的次数:
#coding=utf-8 __author__='zcg' importcollections importos withopen('abc.txt')asfile1:#打开文本文件 str1=file1.read().split('')#将文章按照空格划分开 print"原文本:\n%s"%str1 print"\n各单词出现的次数:\n%s"%collections.Counter(str1) printcollections.Counter(str1)['a']#以字典的形式存储,每个字符对应的键值就是在文本中出现的次数
2.python编写生成序列化:
__author__='zcg' #endcodingutf-8 importstring,random field=string.letters+string.digits defgetRandom(): return"".join(random.sample(field,4)) defconcatenate(group): return"-".join([getRandom()foriinrange(group)]) defgenerate(n): return[concatenate(4)foriinrange(n)] if__name__=='__main__': printgenerate(10)
3.遍历excel表格中的所有数据:
__author__='Administrator' importxlrd workbook=xlrd.open_workbook('config.xlsx') print"Thereare{}sheetsintheworkbook".format(workbook.nsheets) forbooksheetinworkbook.sheets(): forcolinxrange(booksheet.ncols): forrowinxrange(booksheet.nrows): value=booksheet.cell(row,col).value printvalue
其中xlrd需要百度下载导入这个模块到python中
4.将表格中的数据整理成lua类型的一个格式
#coding=utf-8 __author__='zcg' #20179/26 importxlrd fileOutput=open('Configs.lua','w') writeData="--@author:zcg\n\n\n" workbook=xlrd.open_workbook('config.xlsx') print"Thereare{}sheetsintheworkbook".format(workbook.nsheets) forbooksheetinworkbook.sheets(): writeData=writeData+'AT'+booksheet.name+'={\n' forcolinxrange(booksheet.ncols): forrowinxrange(booksheet.nrows): value=booksheet.cell(row,col).value ifrow==0: writeData=writeData+'\t'+'["'+value+'"]'+'='+'{' else: writeData=writeData+'"'+str(booksheet.cell(row,col).value)+'",' else: writeData=writeData+'},\n' else: writeData=writeData+'}\n\n' else: fileOutput.write(writeData) fileOutput.close()
总结
到此这篇关于Python统计文本词汇出现次数的实例代码的文章就介绍到这了,更多相关Python统计文本词汇出现次数内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。