为了接下去的活动,这几天又把《正面管教》拿出来刷了一遍。如果说第一次看是欣喜,那几刷之后就发现形同嚼蜡,越来越觉得作者写得那叫一个乱啊,唯一有感觉的是那些一而再再而三出现的关键词。
为了换换脑子,决定做件无聊的事,统计一下高频词,看看是不是如我所料。
一、使用python
python可谓是炙手可热,短短几句代码就能满足强大的功能,基本上搜索词频分析,最先跳出的就是采用python的方法,只是我压根不会,也不想再折腾。
二、词频软件分析
从网上搜索的结果来看,一款是词频统计工具(WordsCount),试用版有限制,如果要注册,费用为49块。另一款ROST在版本和使用上都较为复杂。

三、在线词频分析

1. 中文词频统计工具
界面极其简约,上传文字之后点击开始统计就可以了。没有标明字数限制,个人猜测在一万字以内。
topwords.png

2. 语料库在线-字词频率统计
“语料库在线”是教育部语言文字应用研究所计算语言学研究室开发的,它的字词频率统计功能比上面的网站要强大很多,至少在字数限制上达到了10万以内,如果超出的话还是建议分批统计。
CpsTongji.png

不过它的分词也存在一定的问题,比如责任一词,它有部分被直接统计在“责任”下,另有部分被统计在了“责任感”下,所以在实际统计时如果只需要某词记得要将几个结果合并。

最后,还是用语料库在线的工具统计了一下高频词(书被分成了两部分统计的),然后根据高频词做了一个词云图片(通过WordArt生成),效果如下:
正面管教 (1).png

最后修改:2022 年 12 月 07 日
如果觉得我的文章对你有用,请随意赞赏