[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[已解决]20元求词频统计

词频统计,我觉得有两种,分词和不分词。
不分词的,https://blog.ailemon.me/2017/02/ ... entation-algorithm/
我还用不来。

http://www.bathome.net/viewthrea ... hlight=%CD%B3%BC%C6
这里的方法好像可以。但是超级慢,一分钟大约20个。我的两字词的表是26万。

我的文本大约60多兆。想统计所有二字词和三字词的频率,有没有高效的办法。
谢谢!

本帖最后由 lxh623 于 2019-7-30 14:27 编辑

回复 3# Batcher
上午那个没有出来,您这个很快出来了,但是,都是0次。

也许没有说明白。两个文件不一样。一个是词语,一个是诗词(一行一首)。用词语搜索诗词。

谢谢!

TOP

回复 2# zaqmlp
都可以的,只要达到结果。全部都有词频。
第一个大概自己去做一个词表。

TOP

本帖最后由 lxh623 于 2019-7-30 15:17 编辑

回复 6# zaqmlp
搜索每一个词语,得到它出现的总次数(不是总行数)。
原件:
盼断归期,划损短金篦。一搦腰围,宽褪素罗衣。知他是甚病疾,好教人没理会,拣口儿食,陡恁的无滋味。医,越恁的难调理。
秋景堪题,红叶满山溪。松径偏宜,黄菊绕东篱。正清樽斟泼醅,有白衣劝酒杯。官品极,到底成何济!归,学取他渊明醉。
怕见春归,枝上柳绵飞。静掩香闺,帘外晓莺啼。恨天涯锦字稀,梦才郎翠被知。宽尽衣,一搦腰肢细。痴,暗暗的添憔悴。
你性随邪,迷恋不来也。我心痴呆,等到月儿斜。你欢娱受用别,我凄凉为甚迭!休谎说,不索寻吴越。咱,负心的教天灭!

关键词文本:
一一
一丁
一七
一上
一下
一世
一丘
一丝
一丢
一两
一严
一个
一举
一乘
一九
一了
一事
一二
一井
一些

TOP

回复 10# zaqmlp
请问,路径需要写入吗?
示例:E:\ABC Book\C诗歌对联\诗词总汇

TOP

回复 9# WHY

如果是三字词,还是可以吗?

TOP

回复 15# happy886rr
请问,可以发一个到同名163邮箱吗。谢谢!
当真了解了一下,登录时间是上个月。
不知道是不是不分词的统计?是不是可以设置统计1-6个字的频率?

TOP

回复 9# WHY
要是直接用每一行去搜索,不是更通用吗?
麻烦一下。

TOP

回复 19# xczxczxcz
9楼的代码大约四十分钟,很快的。是29万行的关键词。

TOP

本帖最后由 lxh623 于 2019-8-1 11:48 编辑

回复 18# WHY
如楼上所说,很快的。
我觉得,都是29万行,用2-3个字或者一行,(一行就是2-3个字)难道不一样吗。
9楼的代码,我改成4和6,就是没有结果。怪了。

TOP

回复 15# happy886rr
无法获得启动参数。不会用啊!
  1. echo
  2. trie U:C2.DI <in.txt>out.txt
  3. trie m
  4. pause
复制代码

TOP

返回列表