找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
楼主: lxh623

[已解决]20元求词频统计

  [复制链接]
 楼主| 发表于 2019-7-31 14:27:34 | 显示全部楼层
回复 15# happy886rr
请问,可以发一个到同名163邮箱吗。谢谢!
当真了解了一下,登录时间是上个月。
不知道是不是不分词的统计?是不是可以设置统计1-6个字的频率?
 楼主| 发表于 2019-7-31 14:29:41 | 显示全部楼层
回复 9# WHY
要是直接用每一行去搜索,不是更通用吗?
麻烦一下。
发表于 2019-7-31 18:16:07 | 显示全部楼层
回复 17# lxh623


      这个是根据你的具体要求来的,条件一变脚本就得改,"通用" 应该谈不上。
如果以每一行关键字(顶楼说26万行)去搜索诗词每一行内容,循环次数会增加很多,可能会降低效率。你可以试试:
  1. gawk "FNR==NR{a[$0]=1};FNR!=NR{for(i in a)b[i]+=gsub(i,i)}END{for(i in b)print i,b[i]}" 关键词.txt 诗词.txt > Result.txt
复制代码
发表于 2019-7-31 19:13:53 | 显示全部楼层
简单测试了下,顶楼诗词 复制粘贴到 60-70M。搜索存在不重复的关键词1000个用时约77秒。26万多个得6个小时左右。这东西得用 C 或 汇编之类来写。
 楼主| 发表于 2019-8-1 09:04:48 | 显示全部楼层
回复 19# xczxczxcz
9楼的代码大约四十分钟,很快的。是29万行的关键词。
 楼主| 发表于 2019-8-1 09:20:07 | 显示全部楼层
本帖最后由 lxh623 于 2019-8-1 11:48 编辑

回复 18# WHY
如楼上所说,很快的。
我觉得,都是29万行,用2-3个字或者一行,(一行就是2-3个字)难道不一样吗。
9楼的代码,我改成4和6,就是没有结果。怪了。
 楼主| 发表于 2019-8-2 10:55:51 | 显示全部楼层
回复 15# happy886rr
无法获得启动参数。不会用啊!
  1. echo
  2. trie U:C2.DI <in.txt>out.txt
  3. trie m
  4. pause
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-17 04:25 , Processed in 0.016405 second(s), 7 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表