[文本处理] 批处理如何统计txt文本每行字符串出现的次数并将结果按次数多少排序？

rack

Rank: 1

帖子: 25
积分: 41
技术: 0
捐助: 0
注册时间: 2013-6-11

3楼

发表于 2013-6-12 13:45 | 只看该作者

本帖最后由 pcl_test 于 2016-7-16 20:45 编辑

回复 2# CrLf

找了一个这个，可是效率太慢了，只能处理几MB的数据大小。没法用。
这个内容也太长了，只要能达到面的效果就行。有谁能精简一下？

    @echo off
:: 目的：
::     SearchNet.TXT中每行只有一个数，统计每个数的重复次数，并按照重复次数由高到低排序
:: 思路：
::     先用sort把所有的数排序，然后统计重复次数，以 数+重复次数 的格式写入临时文件tmp2.txt；
::     提取重复次数的数字，以该数字为长度建立以该数字命名的文件，用dir来把文件名(即重复次数)排序，写入tmp3.txt；
::     按行提取tmp3.txt中的内容，然后在tmp2.txt中查找与tmp3.txt中匹配的记录，写入结果；
::     此方案会产生大量的临时文件，但是效率比较高

set num=-1
sort<SearchNet.TXT>tmp1.txt
cd.>tmp2.txt
cd.>tmp3.txt
cd.>result.txt

:: 统计重复次数
setlocal enabledelayedexpansion
for /f %%i in (tmp1.txt) do (
    set /a num+=1
    set second=!first!
    set first=%%i
    if not "!second!"=="" if !second! neq !first! (>>tmp2.txt echo !second!  !num!&set num=0)
)
>>tmp2.txt echo %first%  %num%

:: 对重复次数排序
md tmp && pushd tmp
for /f "tokens=2" %%i in (..\tmp2.txt) do (
    cd.>%%i
    for /l %%j in (1,1,%%i) do echo.>>%%i
)
>..\tmp3.txt dir /o-s /b

:: 按重复次数提取记录
for /f %%i in (..\tmp3.txt) do (
    >>..\result.txt findstr " %%i$" ..\tmp2.txt
)
popd && rd /q /s tmp
del tmp1.txt tmp2.txt tmp3.txt
start result.txt
goto :eof
复制代码

关于统计字符出现个数的其他方案(都不生成临时文件)

@echo off
:: 统计每个字符出现的次数，并求出出现次数最多的字符
:: 思路：
::     通过提取每个位上的字符，赋予统一以 字符： 开头的某些动态变量，
::     如果变量名相同，则自加一次，然后，通过 set 字符：命令一次性提取
::     所有以 字符： 开头的动态变量，交给 for 语句来处理。set 用得很巧妙
::     无须生成临时文件，并按照字母升序排列
::


setlocal ENABLEDELAYEDEXPANSION
set str=adadfdfseffserfefsefseetsdmg
set /a m=0,n=0,l=0

call :loop

:: 以下是求出现次数最多的字符
for /f "tokens=1,2 delims==" %%i in ('set 字符：') do (
        echo %%i=%%j
        if %%j GTR !l! set l=%%j& set m=%%i
)

echo.出现次数最多的%m%=%l%
pause
goto :EOF

:loop
call set m=%%str:~%n%,1%%
if not defined m goto :EOF
set /a "字符：%m%+=1"
set /a n+=1
goto loop
复制代码

@echo off
:: 统计字符出现次数
:: 思路：
:: 　　 先把字符串拆解为以空格分隔的单字符组成的字符串，
::      然后用for语句来探测每个字符在串中出现的次数
::      此方法无须生成临时文件，并按照在字符串中出现的
::      先后顺序显示


setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdg

rem 拆解字符串
:analyze
set str_tmp=%str_tmp% %str:~0,1%
set str=%str:~1%
if not "%str%" == "" goto analyze

rem 
for %%i in (%str_tmp%) do call :exclude %%i

pause
exit

:exclude
for %%i in (%counted%) do if "%1"=="%%i" goto :eof
set counted=%counted% %1
call :count %1
goto :eof

:count
for %%i in (%str_tmp%) do if "%1"=="%%i" set /a %1+=1
echo %1 !%1!
goto :eof
复制代码

@echo off
:: 统计字符出现的次数
:: 思路：
::     拆解字符串，以空格分隔组成新字符串
::     通过 shift 来call 不同的参数，并用
::     set 来命名变量，变量名具有统一的开头
::     最后通过 set 来显示这些变量
::
setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdg

:loop
set str_tmp=%str_tmp% %str:~0,1% && set str=%str:~1%
if not "%str%" == "" goto loop

call :start %str_tmp%
set . 
echo 出现次数最多的:%max%=%maxN%
pause
exit

:start
if [%1]==[] ( goto :eof ) else ( set /a  .%1+=1 )
if !.%1! GTR !maxN! set maxN=!.%1!&& set max=.%1
shift
goto :start
复制代码

@echo off
:: 综合以上方案，最简洁的代码如下

setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdgadadfdfseffserfefsefseetsdga

:loop
set str$=%str$% %str:~0,1%&set str=%str:~1%
if not "%str%" == "" goto loop

for %%n in (%str$%) do (
  set /a .%%n+=1
if !.%%n! GTR !maxN! set maxN=!.%%n!&&set max=%%n)
set .
echo 出现次数最多的:%max%=%maxN%
pause
exit
复制代码

@echo off&setlocal
:: sort之后，通过比较这一次取到的内容和上一次的内容是否相等来统计重复次数
:: 如何同时保存本次和上次的内容需要很大的技巧
:: 注意要把次数的初值设置为1，for语句的后括号之后不能紧跟跳出语句
:: code by bagpipe  2006-12-16 remarked by JM
set /a n=1
for /f %%a in ('type 1.txt^|sort') do (
call :pp %%a
)
:pp
if not defined bb goto b
if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
:b
set bb=%1
goto :eof
复制代码

@echo off&setlocal enabledelayedexpansion
:: 带排序功能的代码
:: 用 for /l 来控制每次 findstr 的字符长度，
:: 然后把同一长度的用 sort 来排序，从而突破了
:: sort 只能按字符位大小来排序这一限制

set a=[0-9]
for /l %%a in (1,1,3) do (
call :pp !a!
set a=!a![0-9]
)
goto c
:pp
for /f %%x in ('findstr "^%1$" aa.txt^|sort') do @echo %%x >>dd.txt
goto :eof

:c
set /a n=1
for /f %%a in ('type dd.txt') do (
call :pp %%a
)
:pp
if not defined bb goto b
if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
:b
set bb=%1
goto :eof
复制代码

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

4楼

发表于 2013-6-12 15:19 | 只看该作者

要效率高用2楼的3方啊
纯p处理大文件力不从心啊

rack

Rank: 1

帖子: 25
积分: 41
技术: 0
捐助: 0
注册时间: 2013-6-11

5楼

发表于 2013-6-12 15:57 | 只看该作者

回复 4# terse

gawk 和 sed 命令不知道怎么用哦
都不知道用什么软件的

所以只能用BAT，或者CMD的批处理工具

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

6楼

发表于 2013-6-12 17:20 | 只看该作者

本帖最后由 terse 于 2013-6-13 01:15 编辑

这样呢
修正最后行判断问题
简单的测试通过
不知是否还有特殊情况
另排除空行的
不知道楼主是否需处理空行

@echo off&setlocal enabledelayedexpansion
sort a.txt | findstr . >temp.tx
set /pstr=<temp.tx
set num=1000000001
(for /f "skip=1 delims=" %%i in (temp.tx) do (     
    if "!str!" neq "%%i" (
       echo;!num:~1!  !str!
       set num=1000000001
    ) else set /a num+=1
      set str=%%i
)
       echo;!num:~1!  !str!
)>sort.txt
sort /r sort.txt >temp.tx
(for /f "tokens=* delims=0" %%i in (temp.tx) do echo;%%i)>sort.txt
del temp.tx
pause
复制代码

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18837
技术: 980
捐助: 100
注册时间: 2010-10-9

7楼

发表于 2013-6-12 17:21 | 只看该作者

回复 5# rack

2 楼代码保存为 bat，把下载的 gawk.exe 和 sed.exe 及其所需 dll 放在 system32 目录下，运行 bat 即可

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18837
技术: 980
捐助: 100
注册时间: 2010-10-9

8楼

发表于 2013-6-12 17:24 | 只看该作者

其实用 excel 貌似也可以搞定，一溜公式加排序

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

rack

Rank: 1

帖子: 25
积分: 41
技术: 0
捐助: 0
注册时间: 2013-6-11

9楼

发表于 2013-6-12 22:08 | 只看该作者

回复 2# CrLf

谢谢楼上两位指点
但是还不行
下面是前几行的：
''520123 1
';lkjhgfdsa 1
---+++wo520. 1
---1111111111 1
---qq898588 1
---zhangning110 1
--..worininiang 1
--++xzf494 1
--123libukaini 1

rack

Rank: 1

帖子: 25
积分: 41
技术: 0
捐助: 0
注册时间: 2013-6-11

10楼

发表于 2013-6-12 22:09 | 只看该作者

本帖最后由 rack 于 2013-6-12 22:27 编辑

回复 6# terse

谢谢
比我开始找的那个快了很多
而且比我想的还好
把序数放到了前面。
但不知道是什么原因，比那个命令处理出来的要稍大点
下面是前几行：
1904  123456789
213  1234567890
141  987654321
119  147258369
111  12345678910
104  1233211234567
90  123456789.
89  0123456789
88  123123123
82  abc123456
78  7708801314520
73  1111111111111111
69  a123456789
66  5201314520

后面几行：
这里需有几个空行但也不至于大几十KB
1  ---+++wo520.
1  ';lkjhgfdsa
1  ''520123
1
1
1
1
1
1
1
1
1
1

rack

Rank: 1

帖子: 25
积分: 41
技术: 0
捐助: 0
注册时间: 2013-6-11

11楼

发表于 2013-6-12 22:14 | 只看该作者

本帖最后由 rack 于 2013-6-12 22:29 编辑

回复 8# CrLf

谢谢
这种大文件上了G以上或者100MB以上的办公软件没法打开的。
但这个公式与方法办公方面也是很不错的，这个我也不会

可以指点一下虽然现在用不着，说不定哪天用上了。

xxpinqz

中校

Rank: 6 Rank: 6

帖子: 491
积分: 2671
技术: 119
捐助: 0
注册时间: 2008-11-19

12楼

发表于 2013-6-12 23:00 | 只看该作者

3楼的代码，看起来只考虑到头部出现1次的情况，却未考虑尾部为1次的情况(最后一个没重复却被set num=0了)，难道你测试正确？
这么大的文件还是用第三方比较好。纯P该就是6楼的了

初学BAT，非专业。代码不适当之处还望前辈们多多指点。在此表示感谢！

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

13楼

发表于 2013-6-13 00:16 | 只看该作者

本帖最后由 terse 于 2013-6-13 01:19 编辑

if "!num!" neq "1000000000" echo !num:~1! !str!
原来这里是考虑尾部为1次的情况
思考一下应该是错的判断
谢xxpinqz提醒已修正

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

14楼

发表于 2013-6-13 01:59 | 只看该作者

试着用了下 gawk

(@gawk -vt=10000000000 "{ar[$0]++}END{l=asorti(ar,b);for(i=1;i<=l;i++) a[ar[b[i]]+t,b[i]];asorti(a);for(i=l;i>=1;i--) {split(a[i],b,SUBSEP);print b[1]%%t,b[2]}}")<a.txt >sort.txt
复制代码

Python

少校

Rank: 6 Rank: 6

帖子: 225
积分: 2218
技术: 23
捐助: 0
注册时间: 2012-2-17

15楼

发表于 2013-6-13 08:40 | 只看该作者

回复 11# rack

顶楼不是说只有几万行吗？不应该上GB吧。另外，试试14楼的代码。