作者:vim 版本:1.0.0
方方日记高频词前100位【ROST-CM统计】
(武汉,他们,我们,一个,没有,医院,自己,今天,疫情,医生,朋友,现在,病人,看到,已经,感染,这个,就是,这样,所有,可以,什么,还是,知道,人员,很多,这些,问题,那些,病毒,其实,同学,时间,人们,应该,政府,只是,记录,大家,还有,隔离,这么,湖北,但是,医护,如果,因为,信息,一些,可能,起来,不会,昨天,觉得,同事,有人,不能,怎么,治疗,视频,尽管,出门,人民,生活,一下,时候,口罩,工作,专家,社区,所以,官员,重症,甚至,新增,多少,中心,那么,你们,真是,仍然,出来,确诊,只有,记者,方舱,去世,网上,肺炎,开始,控制,消息,死亡,家里,情况,继续,一点,不要,这里,灾难)
先承认,我做这件事是有些摸鱼和变像拖延症:明明一方面朋友催着要一份培训项目的方案,另一方面一个青年国际项目还有许多事情需要协调。我居然花了一个多小时,从网上把方方的武汉封城日记全部扒了下来,并把文本脱水后全文整理到了一个txt文件中,然后,再用大数据工具做了一下初步的分词,然后打包。准备和相关的分词软件一起,和大家做一下分享。
干这件事,主要是因为这段时间出来很多莫名其妙号称“科学统计”的文章,对方方日记或者吹捧、或者批评,都像模像样的拿出了一些“关键词”,以论证自己的立场(不好意思,怎么看都只能这么说……)——可是,你们的“关键语”取得太随便了,那相当主观的几个词,实在是没什么说服力。
算了,都别想当然的设计关键词、假模三道的“分析”了,我帮你们整点基础工作吧。数据已经准备好了,可以考虑基于这些词频统计,再来写你们的文章好了。纯粹的数据,不带任何观念预设,确保客观。当然,你们是想客观分析还是用于打圣战,请自己看着办。
此次用于数据处理的文章,来源于财新网财新博客“作家方方的博客”。包括了从1月25日到3月10日期间,关于武汉封城日记的原文。合计97271字,700段,3443行,非中字单词905个(统计工具:MS Word2019)
简单处理的内容(不涉及实质性内容处理):
这一份方方日记的分词数据,包括两个版本,分别是:
以上两份数据,放到了一个excle表中,分别各用一个表单存存储,请自行选用。
补充说明:这两个工具都是通用型的,用于高标准的科学和数学分析肯定是过于简陋的,但是用于社会科学领域还是可以用用的,用于人文领域那已经是相当的高级和科学了,先用着吧。不满意的话,也可以考虑自己用R语言或者Python去写程序分析。
/* 请列出写这篇文章时参考的哪些相关的资料,请保护格式工整。以下第一行为标题,第二行起为内容。该段文字仅作为提示,不会在正文中出现,下同。 */
参考资料名称 | 引用来源 | 网站链接 | 著作人 | 著作人联系方式(通讯地址或者EMAIL) |
---|---|---|---|---|
武汉封城日记 | 作家方方的博客 | http://fangfang.blog.caixin.com/ | 汪方 | 不详 |
轻松在线做词频分析 | 南先枝的简书 | https://www.jianshu.com/p/deae3b925cf3/ | 南先枝 | 不详 |
联系方式
邮件:vim@vim.org.cn 网站:www.vim.org.cn 留言:联系vim同志