Skip to content

Instantly share code, notes, and snippets.

@Martin91
Last active July 26, 2024 08:23
Show Gist options
  • Save Martin91/42ceb1cd85dec5d30b1d to your computer and use it in GitHub Desktop.
Save Martin91/42ceb1cd85dec5d30b1d to your computer and use it in GitHub Desktop.
题目:英文文章词频统计

英文文章词频统计需求说明

需要实现以下所有功能:

  1. 从指定文件(参数传递)中读取需要分析的英文文章
  2. 计算文章所有单词加标点符号的数量
  3. 单独计算所有单词数量
  4. 单独计算所有标点符号的数量
  5. 统计每个单词在文中出现的频数
  6. 对5中的统计结果进行排序后输出
  7. 最后比较5中所统计所有频率总和是否跟3的计算结果相等,不相等,则代码有误。

期待输入输出:

$ python words_statistics.py ./a_girls_story.txt

从文件“a_girls_story.txt”中分析文章所有内容的结果如下:
计算项 结果
所有单词加标点符号的数量 201
所有单词数量 134
所有标点符号的数量 67
每个单词出现频数 "wordA": 23,
                     |        "wordB": 45

| 所有单词数数量 | 134

提示:

  1. 可以前往 http://www.wordcounter.net/ 校验程序运行结果;
  2. 主要涉及的知识点:字符串处理,正则表达式的使用,数组,字典对象,文件对象,排序,可能涉及 code block (比如 javascript 中的匿名函数,或者 obj-c 以及 ruby 中的 block)。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment