目录

搞事 | 方方日记词频统计及工具软件下载

作者:vim 版本:1.0.0

方方日记高频词前100位【ROST-CM统计】
(武汉,他们,我们,一个,没有,医院,自己,今天,疫情,医生,朋友,现在,病人,看到,已经,感染,这个,就是,这样,所有,可以,什么,还是,知道,人员,很多,这些,问题,那些,病毒,其实,同学,时间,人们,应该,政府,只是,记录,大家,还有,隔离,这么,湖北,但是,医护,如果,因为,信息,一些,可能,起来,不会,昨天,觉得,同事,有人,不能,怎么,治疗,视频,尽管,出门,人民,生活,一下,时候,口罩,工作,专家,社区,所以,官员,重症,甚至,新增,多少,中心,那么,你们,真是,仍然,出来,确诊,只有,记者,方舱,去世,网上,肺炎,开始,控制,消息,死亡,家里,情况,继续,一点,不要,这里,灾难)

先承认,我做这件事是有些摸鱼和变像拖延症:明明一方面朋友催着要一份培训项目的方案,另一方面一个青年国际项目还有许多事情需要协调。我居然花了一个多小时,从网上把方方的武汉封城日记全部扒了下来,并把文本脱水后全文整理到了一个txt文件中,然后,再用大数据工具做了一下初步的分词,然后打包。准备和相关的分词软件一起,和大家做一下分享。

干这件事,主要是因为这段时间出来很多莫名其妙号称“科学统计”的文章,对方方日记或者吹捧、或者批评,都像模像样的拿出了一些“关键词”,以论证自己的立场(不好意思,怎么看都只能这么说……)——可是,你们的“关键语”取得太随便了,那相当主观的几个词,实在是没什么说服力。

算了,都别想当然的设计关键词、假模三道的“分析”了,我帮你们整点基础工作吧。数据已经准备好了,可以考虑基于这些词频统计,再来写你们的文章好了。纯粹的数据,不带任何观念预设,确保客观。当然,你们是想客观分析还是用于打圣战,请自己看着办。

关于数据来源

此次用于数据处理的文章,来源于财新网财新博客“作家方方的博客”。包括了从1月25日到3月10日期间,关于武汉封城日记的原文。合计97271字,700段,3443行,非中字单词905个(统计工具:MS Word2019)

简单处理的内容(不涉及实质性内容处理):

  1. 标题去除“作家方方”“(20)”类似这样没有分析意义的内容,用日期进行文章分隔
  2. 所有文章的自然段之间全部空一行,文章开始部分的分行两行的一段话例外(数据处理上应该没差)
  3. 去除所有段首段末的空格

关于分词工具及词频统计概况

这一份方方日记的分词数据,包括两个版本,分别是:

  1. 基于教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”的在线工具进行处理,生成的词频统计。共计分出7460个词,最少出现1次,最多出现2907次,没做任何数据优化,包括了大量1字词,如“的”“我”“是”等,分析起来可能还需要做一轮人肉筛选;
  2. 基于武汉大学老师开发的“ROST-CM”软件进行处理,生成的词频统计。做了一些优化处理,包括:略掉了单字词,对中性用途的高频字做了过滤,仅导出了前面处理后词频排名前2000的词语。

以上两份数据,放到了一个excle表中,分别各用一个表单存存储,请自行选用。

补充说明:这两个工具都是通用型的,用于高标准的科学和数学分析肯定是过于简陋的,但是用于社会科学领域还是可以用用的,用于人文领域那已经是相当的高级和科学了,先用着吧。不满意的话,也可以考虑自己用R语言或者Python去写程序分析。

资料及工具下载

方方日记原文(及分词处理)

ROST-CM内容挖掘系统

参考资料

/* 请列出写这篇文章时参考的哪些相关的资料,请保护格式工整。以下第一行为标题,第二行起为内容。该段文字仅作为提示,不会在正文中出现,下同。 */

参考资料名称 引用来源 网站链接 著作人 著作人联系方式(通讯地址或者EMAIL)
武汉封城日记 作家方方的博客 http://fangfang.blog.caixin.com/ 汪方 不详
轻松在线做词频分析 南先枝的简书 https://www.jianshu.com/p/deae3b925cf3/ 南先枝 不详

联系方式

邮件:vim@vim.org.cn 网站:www.vim.org.cn 留言:联系vim同志