博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:5248 次
发布时间:2019-06-14

本文共 445 字,大约阅读时间需要 1 分钟。

  1. 下载一中文长篇小说,并转换成UTF-8编码。
  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
  3. 排除一些无意义词、合并同一词。
  4. 对词频统计结果做简单的解读。
import jiebafo=open('shuihuzhuan.txt','r',encoding='utf-8')str=fo.read()fo.close()words=list(jieba.cut(str))dt={}for i in words:    if len(i)==1:       continue    else:        dt[i]=dt.get(i,0)+1   item=list(dt.items())item.sort(key=lambda x:x[1],reverse=True)for i in range(20):    print(item[i])

 运行截图

 

 

转载于:https://www.cnblogs.com/Betty18/p/7612370.html

你可能感兴趣的文章
CGLib动态代理原理及实现
查看>>
Rhythmk 一步一步学 JAVA (16) dom4j 操作XML
查看>>
JAVA_OA(五):SpringMVC接受传入页面的参数值
查看>>
装饰器与函数的多层嵌套
查看>>
初入web知识点(三)
查看>>
CSS样式 vertical-align:middle 垂直居中生效情况
查看>>
RESTFul API
查看>>
[导入]玫瑰丝巾!
查看>>
自动从网站上面下载文件 .NET把网站图片保存到本地
查看>>
【识记】 域名备案
查看>>
STL uva 11991
查看>>
MY SQL的下载和安装
查看>>
自定义OffMeshLink跳跃曲线
查看>>
寄Android开发Gradle你需要知道的知识
查看>>
简述spring中常有的几种advice?
查看>>
牛客网——华为机试(题21:简单密码)(Java)
查看>>
Python 中文编码
查看>>
应收发票相关脚本
查看>>
从“差不多了”到 正式发布 -- 新浪微博WinPhone UWP版诞生记
查看>>
ACM数论总结
查看>>