需要实现以下所有功能:
- 从指定文件(参数传递)中读取需要分析的英文文章
- 计算文章所有单词加标点符号的数量
- 单独计算所有单词数量
- 单独计算所有标点符号的数量
- 统计每个单词在文中出现的频数
- 对5中的统计结果进行排序后输出
- 最后比较5中所统计所有频率总和是否跟3的计算结果相等,不相等,则代码有误。
期待输入输出:
$ python words_statistics.py ./a_girls_story.txt
从文件“a_girls_story.txt”中分析文章所有内容的结果如下:
计算项 | 结果 |
---|---|
所有单词加标点符号的数量 | 201 |
所有单词数量 | 134 |
所有标点符号的数量 | 67 |
每个单词出现频数 | "wordA": 23, |
| "wordB": 45
| 所有单词数数量 | 134
- 可以前往 http://www.wordcounter.net/ 校验程序运行结果;
- 主要涉及的知识点:字符串处理,正则表达式的使用,数组,字典对象,文件对象,排序,可能涉及 code block (比如 javascript 中的匿名函数,或者 obj-c 以及 ruby 中的 block)。