blog:200525_ffdairy_word_analysis
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
blog:200525_ffdairy_word_analysis [2024/05/10 18:40] – 移除 - 外部编辑 (未知日期) 127.0.0.1 | blog:200525_ffdairy_word_analysis [2024/08/28 19:15] (当前版本) – 外部编辑 127.0.0.1 | ||
---|---|---|---|
行 1: | 行 1: | ||
+ | # 搞事 | 方方日记词频统计及工具软件下载 | ||
+ | 作者:[[http:// | ||
+ | |||
+ | {{original: | ||
+ | (武汉, | ||
+ | |||
+ | 先承认,我做这件事是有些摸鱼和变像拖延症:明明一方面朋友催着要一份培训项目的方案,另一方面一个青年国际项目还有许多事情需要协调。我居然花了一个多小时,从网上把方方的武汉封城日记全部扒了下来,并把文本脱水后全文整理到了一个txt文件中,然后,再用大数据工具做了一下初步的分词,然后打包。准备和相关的分词软件一起,和大家做一下分享。 | ||
+ | |||
+ | 干这件事,主要是因为这段时间出来很多莫名其妙号称“科学统计”的文章,对方方日记或者吹捧、或者批评,都像模像样的拿出了一些“关键词”,以论证自己的立场(不好意思,怎么看都只能这么说……)——可是,你们的“关键语”取得太随便了,那相当主观的几个词,实在是没什么说服力。 | ||
+ | |||
+ | 算了,都别想当然的设计关键词、假模三道的“分析”了,我帮你们整点基础工作吧。数据已经准备好了,可以考虑基于这些词频统计,再来写你们的文章好了。纯粹的数据,不带任何观念预设,确保客观。当然,你们是想客观分析还是用于打圣战,请自己看着办。 | ||
+ | |||
+ | ## 关于数据来源 | ||
+ | |||
+ | 此次用于数据处理的文章,来源于财新网财新博客“[[http:// | ||
+ | |||
+ | 简单处理的内容(不涉及实质性内容处理): | ||
+ | |||
+ | 1. 标题去除“作家方方”“(20)”类似这样没有分析意义的内容,用日期进行文章分隔 | ||
+ | 2. 所有文章的自然段之间全部空一行,文章开始部分的分行两行的一段话例外(数据处理上应该没差) | ||
+ | 3. 去除所有段首段末的空格 | ||
+ | |||
+ | ## 关于分词工具及词频统计概况 | ||
+ | |||
+ | 这一份方方日记的分词数据,包括两个版本,分别是: | ||
+ | |||
+ | 1. 基于教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”的在线工具进行处理,生成的词频统计。共计分出7460个词,最少出现1次,最多出现2907次,没做任何数据优化,包括了大量1字词,如“的”“我”“是”等,分析起来可能还需要做一轮人肉筛选; | ||
+ | |||
+ | 2. 基于武汉大学老师开发的“ROST-CM”软件进行处理,生成的词频统计。做了一些优化处理,包括:略掉了单字词,对中性用途的高频字做了过滤,仅导出了前面处理后词频排名前2000的词语。 | ||
+ | |||
+ | 以上两份数据,放到了一个excle表中,分别各用一个表单存存储,请自行选用。 | ||
+ | |||
+ | 补充说明:这两个工具都是通用型的,用于高标准的科学和数学分析肯定是过于简陋的,但是用于社会科学领域还是可以用用的,用于人文领域那已经是相当的高级和科学了,先用着吧。不满意的话,也可以考虑自己用R语言或者Python去写程序分析。 | ||
+ | |||
+ | ## 资料及工具下载 | ||
+ | |||
+ | [[http:// | ||
+ | |||
+ | [[http:// | ||
+ | |||
+ | ## 参考资料 | ||
+ | |||
+ | /* 请列出写这篇文章时参考的哪些相关的资料,请保护格式工整。以下第一行为标题,第二行起为内容。该段文字仅作为提示,不会在正文中出现,下同。 */ | ||
+ | |||
+ | ^参考资料名称 ^引用来源 ^网站链接 ^著作人 ^著作人联系方式(通讯地址或者EMAIL)^ | ||
+ | |武汉封城日记 |作家方方的博客 |http:// | ||
+ | |轻松在线做词频分析 |南先枝的简书 |https:// | ||
+ | |||
+ | **联系方式** | ||
+ | |||
+ | 邮件:[[mailto: | ||
+ | |||
+ | {{tag># | ||
+ | |||
+ | ~~DISCUSSION: |