博客
关于我
第7章-1 词频统计 (30分)【Python版本】
阅读量:193 次
发布时间:2019-02-28

本文共 1214 字,大约阅读时间需要 4 分钟。

为了解决这个问题,我们需要编写一个Python程序来统计一段英文文本中的所有不同单词,并找出词频最大的前10%的单词。以下是详细的解决方案。

方法思路

  • 读取输入:首先读取用户输入的文本,并去掉末尾的#符号。
  • 预处理文本:将所有非法字符替换为空格,然后将文本转换为小写字母。
  • 分割单词:将处理后的文本按空格分割成单词列表。
  • 截断单词:对超过15个字符的单词进行截断,只保留前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据单词频率和字典序对单词进行排序。
  • 输出结果:输出所有不同单词的总数,随后输出词频最大的前10%的单词。
  • 解决代码

    import systext = sys.stdin.read().strip('#')# 替换非法字符为空格,并将所有字符转换为小写processed = []for c in text:    if c.isalnum() or c == '_':        processed.append(c.lower())    else:        processed.append(' ')text = ''.join(processed).strip()# 分割单词words = text.split()# 截断超过15个字符的单词for i in range(len(words)):    if len(words[i]) > 15:        words[i] = words[i][:15]# 统计单词频率word_counts = {}for word in words:    word_counts[word] = word_counts.get(word, 0) + 1# 按词频降序和字典序升序排序sorted_words = sorted(word_counts.items(), key=lambda x: (-x[1], x[0]))# 输出结果print(len(sorted_words))num_to_output = int(len(sorted_words) / 10)for i in range(num_to_output):    print(f"{sorted_words[i][1]}:{sorted_words[i][0]}")

    代码解释

  • 读取输入:使用sys.stdin.read()读取所有输入内容,并去掉末尾的#符号。
  • 预处理文本:遍历每个字符,保留字母、数字和下划线,将其转换为小写,其他字符替换为空格。
  • 分割单词:将预处理后的文本按空格分割成单词列表。
  • 截断单词:检查每个单词的长度,如果超过15个字符,则截断为前15个字符。
  • 统计单词频率:使用字典记录每个单词的出现次数。
  • 排序单词:根据频率降序和字典序升序对单词进行排序。
  • 输出结果:输出所有单词的数量,随后输出前10%的高频单词及其频率。
  • 转载地址:http://dbii.baihongyu.com/

    你可能感兴趣的文章
    Oracle修改字段类型
    查看>>
    Oracle修改表或者字段的注释
    查看>>
    oracle典型安装失败,安装oracle 10失败
    查看>>
    Oracle内存结构详解(四)--Oracle SGA其他组成部分
    查看>>
    Oracle函数与存储过程和程序包
    查看>>
    Oracle分析函数之LEAD和LAG
    查看>>
    Oracle分组取前n条记录
    查看>>
    Oracle创建database link(dblink)和同义词(synonym)
    查看>>
    oracle创建数据库的步骤
    查看>>
    Oracle创建用户、角色、授权、建表
    查看>>
    Oracle创建用户与授予表空间与权限
    查看>>
    oracle创建表(并且实现ID自增)
    查看>>
    oracle删除重复数据保留第一条记录
    查看>>
    oracle判断空值的函数nvl2,【PL/SQL】 NVL,NVL2,COALESCE 三种空值判断函数
    查看>>
    Oracle发布VirtualBox 7.1稳定版!支持ARM、优化了UI、支持Wayland等
    查看>>
    oracle启动三步
    查看>>
    oracle启动关闭服务,启动关闭oracle服务.bat
    查看>>
    Oracle命令行创建数据库
    查看>>
    Oracle和SQL server的数据类型比较
    查看>>
    oracle和sybase的一些区别
    查看>>