搞事 | 方方日记词频统计及工具软件下载

作者：vim　版本：1.0.0

方方日记高频词前100位【ROST-CM统计】
（武汉,他们,我们,一个,没有,医院,自己,今天,疫情,医生,朋友,现在,病人,看到,已经,感染,这个,就是,这样,所有,可以,什么,还是,知道,人员,很多,这些,问题,那些,病毒,其实,同学,时间,人们,应该,政府,只是,记录,大家,还有,隔离,这么,湖北,但是,医护,如果,因为,信息,一些,可能,起来,不会,昨天,觉得,同事,有人,不能,怎么,治疗,视频,尽管,出门,人民,生活,一下,时候,口罩,工作,专家,社区,所以,官员,重症,甚至,新增,多少,中心,那么,你们,真是,仍然,出来,确诊,只有,记者,方舱,去世,网上,肺炎,开始,控制,消息,死亡,家里,情况,继续,一点,不要,这里,灾难）

先承认，我做这件事是有些摸鱼和变像拖延症：明明一方面朋友催着要一份培训项目的方案，另一方面一个青年国际项目还有许多事情需要协调。我居然花了一个多小时，从网上把方方的武汉封城日记全部扒了下来，并把文本脱水后全文整理到了一个txt文件中，然后，再用大数据工具做了一下初步的分词，然后打包。准备和相关的分词软件一起，和大家做一下分享。

干这件事，主要是因为这段时间出来很多莫名其妙号称“科学统计”的文章，对方方日记或者吹捧、或者批评，都像模像样的拿出了一些“关键词”，以论证自己的立场（不好意思，怎么看都只能这么说……）——可是，你们的“关键语”取得太随便了，那相当主观的几个词，实在是没什么说服力。

算了，都别想当然的设计关键词、假模三道的“分析”了，我帮你们整点基础工作吧。数据已经准备好了，可以考虑基于这些词频统计，再来写你们的文章好了。纯粹的数据，不带任何观念预设，确保客观。当然，你们是想客观分析还是用于打圣战，请自己看着办。

关于数据来源

此次用于数据处理的文章，来源于财新网财新博客“作家方方的博客”。包括了从1月25日到3月10日期间，关于武汉封城日记的原文。合计97271字，700段，3443行，非中字单词905个（统计工具：MS Word2019）

简单处理的内容(不涉及实质性内容处理)：

标题去除“作家方方”“（20）”类似这样没有分析意义的内容，用日期进行文章分隔
所有文章的自然段之间全部空一行，文章开始部分的分行两行的一段话例外（数据处理上应该没差）
去除所有段首段末的空格

关于分词工具及词频统计概况

这一份方方日记的分词数据，包括两个版本，分别是:

基于教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”的在线工具进行处理，生成的词频统计。共计分出7460个词，最少出现1次，最多出现2907次，没做任何数据优化，包括了大量1字词，如“的”“我”“是”等，分析起来可能还需要做一轮人肉筛选；
基于武汉大学老师开发的“ROST-CM”软件进行处理，生成的词频统计。做了一些优化处理，包括：略掉了单字词，对中性用途的高频字做了过滤，仅导出了前面处理后词频排名前2000的词语。

以上两份数据，放到了一个excle表中，分别各用一个表单存存储，请自行选用。

补充说明：这两个工具都是通用型的，用于高标准的科学和数学分析肯定是过于简陋的，但是用于社会科学领域还是可以用用的，用于人文领域那已经是相当的高级和科学了，先用着吧。不满意的话，也可以考虑自己用R语言或者Python去写程序分析。

资料及工具下载

方方日记原文（及分词处理）

ROST-CM内容挖掘系统

参考资料

/* 请列出写这篇文章时参考的哪些相关的资料，请保护格式工整。以下第一行为标题，第二行起为内容。该段文字仅作为提示，不会在正文中出现，下同。 */

参考资料名称	引用来源	网站链接	著作人	著作人联系方式（通讯地址或者EMAIL）
武汉封城日记	作家方方的博客	http://fangfang.blog.caixin.com/	汪方	不详
轻松在线做词频分析	南先枝的简书	https://www.jianshu.com/p/deae3b925cf3/	南先枝	不详

联系方式

邮件：vim@vim.org.cn　网站：www.vim.org.cn　留言：联系vim同志

#方方日记, #大数据, #分词, #blog

目录

搞事 | 方方日记词频统计及工具软件下载

关于数据来源

关于分词工具及词频统计概况

资料及工具下载

参考资料