[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理如何统计txt文本每行字符串出现的次数并将结果按次数多少排序?

本帖最后由 pcl_test 于 2016-7-16 22:23 编辑

有个TXT文件里面有好几个W行,我想做个bat统计一下,得到像如下结果:

内容      出现次数
123         10
333          5
223          3
vbf            1
bfbfd          1
b fbf           1

1.统计每行字符出现的次数
2.按降序排例,出现最多的排在上面。
3.内容与次数用四个空格或者四----等其它特殊符号隔开
4.待处理文件如aa.txt输出文件11.txt

我不懂C语言之类的软件,所以只能用用做好的bat了。
在此多谢先。

  1. @(gawk "{ar[$0]+=1000001}END{for(i in ar)print substr(ar[i],length(ar[i])-5,6) \":\" i}" | sort | sed "s/^0*\([0-9]\)*:\(.*\)$/\2    \1/")<aa.txt >11.txt
复制代码
gawk 和 sed 是第三方命令,自己下一个吧

TOP

本帖最后由 pcl_test 于 2016-7-16 20:45 编辑

回复 2# CrLf

找了一个这个,可是效率太慢了,只能处理几MB的数据大小。没法用。
这个内容也太长了,只要能达到面的效果就行。有谁能精简一下?
  1.     @echo off
  2. :: 目的:
  3. ::     SearchNet.TXT中每行只有一个数,统计每个数的重复次数,并按照重复次数由高到低排序
  4. :: 思路:
  5. ::     先用sort把所有的数排序,然后统计重复次数,以 数+重复次数 的格式写入临时文件tmp2.txt;
  6. ::     提取重复次数的数字,以该数字为长度建立以该数字命名的文件,用dir来把文件名(即重复次数)排序,写入tmp3.txt;
  7. ::     按行提取tmp3.txt中的内容,然后在tmp2.txt中查找与tmp3.txt中匹配的记录,写入结果;
  8. ::     此方案会产生大量的临时文件,但是效率比较高
  9. set num=-1
  10. sort<SearchNet.TXT>tmp1.txt
  11. cd.>tmp2.txt
  12. cd.>tmp3.txt
  13. cd.>result.txt
  14. :: 统计重复次数
  15. setlocal enabledelayedexpansion
  16. for /f %%i in (tmp1.txt) do (
  17.     set /a num+=1
  18.     set second=!first!
  19.     set first=%%i
  20.     if not "!second!"=="" if !second! neq !first! (>>tmp2.txt echo !second!  !num!&set num=0)
  21. )
  22. >>tmp2.txt echo %first%  %num%
  23. :: 对重复次数排序
  24. md tmp && pushd tmp
  25. for /f "tokens=2" %%i in (..\tmp2.txt) do (
  26.     cd.>%%i
  27.     for /l %%j in (1,1,%%i) do echo.>>%%i
  28. )
  29. >..\tmp3.txt dir /o-s /b
  30. :: 按重复次数提取记录
  31. for /f %%i in (..\tmp3.txt) do (
  32.     >>..\result.txt findstr " %%i$" ..\tmp2.txt
  33. )
  34. popd && rd /q /s tmp
  35. del tmp1.txt tmp2.txt tmp3.txt
  36. start result.txt
  37. goto :eof
复制代码
关于统计字符出现个数的其他方案(都不生成临时文件)
  1. @echo off
  2. :: 统计每个字符出现的次数,并求出出现次数最多的字符
  3. :: 思路:
  4. ::     通过提取每个位上的字符,赋予统一以 字符: 开头的某些动态变量,
  5. ::     如果变量名相同,则自加一次,然后,通过 set 字符:命令一次性提取
  6. ::     所有以 字符: 开头的动态变量,交给 for 语句来处理。set 用得很巧妙
  7. ::     无须生成临时文件,并按照字母升序排列
  8. ::
  9. setlocal ENABLEDELAYEDEXPANSION
  10. set str=adadfdfseffserfefsefseetsdmg
  11. set /a m=0,n=0,l=0
  12. call :loop
  13. :: 以下是求出现次数最多的字符
  14. for /f "tokens=1,2 delims==" %%i in ('set 字符:') do (
  15.         echo %%i=%%j
  16.         if %%j GTR !l! set l=%%j& set m=%%i
  17. )
  18. echo.出现次数最多的%m%=%l%
  19. pause
  20. goto :EOF
  21. :loop
  22. call set m=%%str:~%n%,1%%
  23. if not defined m goto :EOF
  24. set /a "字符:%m%+=1"
  25. set /a n+=1
  26. goto loop
复制代码
  1. @echo off
  2. :: 统计字符出现次数
  3. :: 思路:
  4. ::    先把字符串拆解为以空格分隔的单字符组成的字符串,
  5. ::      然后用for语句来探测每个字符在串中出现的次数
  6. ::      此方法无须生成临时文件,并按照在字符串中出现的
  7. ::      先后顺序显示
  8. setlocal EnableDelayedExpansion
  9. set str=adadfdfseffserfefsefseetsdg
  10. rem 拆解字符串
  11. :analyze
  12. set str_tmp=%str_tmp% %str:~0,1%
  13. set str=%str:~1%
  14. if not "%str%" == "" goto analyze
  15. rem
  16. for %%i in (%str_tmp%) do call :exclude %%i
  17. pause
  18. exit
  19. :exclude
  20. for %%i in (%counted%) do if "%1"=="%%i" goto :eof
  21. set counted=%counted% %1
  22. call :count %1
  23. goto :eof
  24. :count
  25. for %%i in (%str_tmp%) do if "%1"=="%%i" set /a %1+=1
  26. echo %1 !%1!
  27. goto :eof
复制代码
  1. @echo off
  2. :: 统计字符出现的次数
  3. :: 思路:
  4. ::     拆解字符串,以空格分隔组成新字符串
  5. ::     通过 shift 来call 不同的参数,并用
  6. ::     set 来命名变量,变量名具有统一的开头
  7. ::     最后通过 set 来显示这些变量
  8. ::
  9. setlocal EnableDelayedExpansion
  10. set str=adadfdfseffserfefsefseetsdg
  11. :loop
  12. set str_tmp=%str_tmp% %str:~0,1% && set str=%str:~1%
  13. if not "%str%" == "" goto loop
  14. call :start %str_tmp%
  15. set .
  16. echo 出现次数最多的:%max%=%maxN%
  17. pause
  18. exit
  19. :start
  20. if [%1]==[] ( goto :eof ) else ( set /a  .%1+=1 )
  21. if !.%1! GTR !maxN! set maxN=!.%1!&& set max=.%1
  22. shift
  23. goto :start
复制代码
  1. @echo off
  2. :: 综合以上方案,最简洁的代码如下
  3. setlocal EnableDelayedExpansion
  4. set str=adadfdfseffserfefsefseetsdgadadfdfseffserfefsefseetsdga
  5. :loop
  6. set str$=%str$% %str:~0,1%&set str=%str:~1%
  7. if not "%str%" == "" goto loop
  8. for %%n in (%str$%) do (
  9.   set /a .%%n+=1
  10. if !.%%n! GTR !maxN! set maxN=!.%%n!&&set max=%%n)
  11. set .
  12. echo 出现次数最多的:%max%=%maxN%
  13. pause
  14. exit
复制代码
  1. @echo off&setlocal
  2. :: sort之后,通过比较这一次取到的内容和上一次的内容是否相等来统计重复次数
  3. :: 如何同时保存本次和上次的内容需要很大的技巧
  4. :: 注意要把次数的初值设置为1,for语句的后括号之后不能紧跟跳出语句
  5. :: code by bagpipe  2006-12-16 remarked by JM
  6. set /a n=1
  7. for /f %%a in ('type 1.txt^|sort') do (
  8. call :pp %%a
  9. )
  10. :pp
  11. if not defined bb goto b
  12. if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
  13. :b
  14. set bb=%1
  15. goto :eof
复制代码
  1. @echo off&setlocal enabledelayedexpansion
  2. :: 带排序功能的代码
  3. :: 用 for /l 来控制每次 findstr 的字符长度,
  4. :: 然后把同一长度的用 sort 来排序,从而突破了
  5. :: sort 只能按字符位大小来排序这一限制
  6. set a=[0-9]
  7. for /l %%a in (1,1,3) do (
  8. call :pp !a!
  9. set a=!a![0-9]
  10. )
  11. goto c
  12. :pp
  13. for /f %%x in ('findstr "^%1$" aa.txt^|sort') do @echo %%x >>dd.txt
  14. goto :eof
  15. :c
  16. set /a n=1
  17. for /f %%a in ('type dd.txt') do (
  18. call :pp %%a
  19. )
  20. :pp
  21. if not defined bb goto b
  22. if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
  23. :b
  24. set bb=%1
  25. goto :eof
复制代码

TOP

要效率高 用2楼的3方啊
纯p处理大文件力不从心啊

TOP

回复 4# terse


    gawk 和 sed 命令不知道怎么用哦
都不知道用什么软件的

所以只能用BAT,或者CMD的批处理工具

TOP

本帖最后由 terse 于 2013-6-13 01:15 编辑

这样呢
修正最后行判断问题
简单的测试 通过
不知是否还有特殊情况
另排除空行的
不知道楼主是否需处理空行
  1. @echo off&setlocal enabledelayedexpansion
  2. sort a.txt | findstr . >temp.tx
  3. set /pstr=<temp.tx
  4. set num=1000000001
  5. (for /f "skip=1 delims=" %%i in (temp.tx) do (     
  6.     if "!str!" neq "%%i" (
  7.        echo;!num:~1!  !str!
  8.        set num=1000000001
  9.     ) else set /a num+=1
  10.       set str=%%i
  11. )
  12.        echo;!num:~1!  !str!
  13. )>sort.txt
  14. sort /r sort.txt >temp.tx
  15. (for /f "tokens=* delims=0" %%i in (temp.tx) do echo;%%i)>sort.txt
  16. del temp.tx
  17. pause
复制代码

TOP

回复 5# rack


    2 楼代码保存为 bat,把下载的 gawk.exe 和 sed.exe 及其所需 dll 放在 system32 目录下,运行 bat 即可

TOP

其实用 excel 貌似也可以搞定,一溜公式加排序

TOP

回复 2# CrLf


    谢谢楼上两位指点
但是还不行
下面是前几行的:
''520123    1
';lkjhgfdsa    1
---+++wo520.    1
---1111111111    1
---qq898588    1
---zhangning110    1
--..worininiang    1
--++xzf494    1
--123libukaini    1

TOP

本帖最后由 rack 于 2013-6-12 22:27 编辑

回复 6# terse


    谢谢
比我开始找的那个快了很多
而且比我想的还好
把序数放到了前面。
但不知道是什么原因,比那个命令处理出来的要稍大点
下面是前几行:
1904  123456789
213  1234567890
141  987654321
119  147258369
111  12345678910
104  1233211234567
90  123456789.
89  0123456789
88  123123123
82  abc123456
78  7708801314520
73  1111111111111111
69  a123456789
66  5201314520


后面几行:
这里需有几个空行但也不至于大几十KB
1  ---+++wo520.
1  ';lkjhgfdsa
1  ''520123
1  
1  
1  
1  
1  
1  
1  
1  
1  
1

TOP

本帖最后由 rack 于 2013-6-12 22:29 编辑

回复 8# CrLf


    谢谢
这种大文件上了G以上或者100MB以上的办公软件没法打开的。
但这个公式与方法办公方面也是很不错的,这个我也不会
可以指点一下虽然现在用不着,说不定哪天用上了。

TOP

3楼的代码,看起来只考虑到头部出现1次的情况,却未考虑尾部为1次的情况(最后一个没重复却被set num=0了),难道你测试正确?
这么大的文件还是用第三方比较好。纯P该就是6楼的了
初学BAT,非专业。代码不适当之处还望前辈们多多指点。在此表示感谢!

TOP

本帖最后由 terse 于 2013-6-13 01:19 编辑

if "!num!" neq "1000000000" echo !num:~1!  !str!
原来这里是考虑尾部为1次的情况
思考一下 应该是错的判断
谢xxpinqz提醒 已修正

TOP

试着用了下 gawk
  1. (@gawk -vt=10000000000 "{ar[$0]++}END{l=asorti(ar,b);for(i=1;i<=l;i++) a[ar[b[i]]+t,b[i]];asorti(a);for(i=l;i>=1;i--) {split(a[i],b,SUBSEP);print b[1]%%t,b[2]}}")<a.txt >sort.txt
复制代码

TOP

回复 11# rack


    顶楼不是说只有几万行吗?不应该上GB吧。另外,试试14楼的代码。

TOP

返回列表