找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
楼主: 娜美

[文本处理] 请问去重复行的批处理如何修改为批量处理?

[复制链接]
 楼主| 发表于 2023-9-18 21:07:46 | 显示全部楼层
采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误



    正确,  多谢哥哥提醒
发表于 2023-9-18 21:16:55 | 显示全部楼层
  1. @echo off
  2. for /f "delims=" %%i in ('dir /b /a-d *.txt') do (
  3.         cd.>"%%~ni_2%%~xi"
  4.         for /f "useback delims=" %%a in ("%%i") do (
  5.                 findstr /xc:"%%a" "%%~ni_2%%~xi" 1>nul
  6.                 if errorlevel 1 (
  7.                         >>"%%~ni_2%%~xi" echo %%a
  8.                 )
  9.         )
  10. )
  11. pause
复制代码
 楼主| 发表于 2023-9-18 21:40:33 | 显示全部楼层
回复 17# 77七


    嗯嗯,  哥哥的区分了大小写,   只是有特殊字符的不能
发表于 2023-9-18 21:51:22 | 显示全部楼层

变量名字典采用前缀 _ 或 $ 或 # 等字符乃是一种防空对策,一旦遭遇文本行皆为空格时,set   =... 就会出现问题。
另提示17楼》循环体内的外部程序被频繁调用会导致运行效率明显滑坡,尤其是要管控内层循环,其效应是倍增的...

评分

参与人数 1技术 +1 收起 理由
77七 + 1 感谢分享

查看全部评分

发表于 2023-9-18 21:57:27 | 显示全部楼层
回复 14# Batcher
  1. @echo off
  2. set var=123
  3. set num=4456
  4. set a=ham
  5. setlocal
  6. set var=abcd
  7. set num=jkl
  8. set a=efg
  9. set max=1234567
  10. echo %var% %num% %a%
  11. endlocal
  12. echo %var% %num% %a%
  13. pause
复制代码
搜了一下setlocal  endlocal   这个例子可以理解。
上面这个放for里面是对哪个变量本地化?%%a吗  我试了下把setlocal  endlocal 全删了也能成功
 楼主| 发表于 2023-9-18 22:05:18 | 显示全部楼层
回复 12# aloha20200628


    大哥哥,  似乎不支持大小写,  和特殊字符,   如果需要大小写, 和支持尽可能多特殊字符呢 ?
发表于 2023-9-18 22:29:29 | 显示全部楼层
  1. @echo off
  2. for /f "useback delims=" %%i in (`dir /b /a-d *.txt`) do (
  3.         setlocal
  4.         for /f "useback delims=" %%a in (`sort "%%i"^&echo #@#@#`) do (
  5.                 if not defined str1 (
  6.                         set "str1=%%a"
  7.                 ) else (
  8.                         set "str2=%%a"
  9.                         setlocal enabledelayedexpansion
  10.                         if "!str1!" neq "!str2!" (
  11.                                 >>"%%~ni_2%%~xi" echo !str1!
  12.                         )
  13.                         endlocal
  14.                         set "str1=%%a"
  15.                 )
  16.         )
  17.         endlocal
  18. )
  19. pause
复制代码

未过多测试,不知道行不行,文本排序后,将某一行与下一行比较,如果不等,则打印某一行。
排序会改变。
发表于 2023-9-18 23:54:18 | 显示全部楼层

如果实际应用场合没有那么多纯P的'天敌',变量名字典真是纯P代码得以如此轻快的一个好方法。
再给一个jscript+纯P混编的版本(存盘为.cmd或.bat文件),但愿能助纯P一臂之力...

  1. @set @v=1 /*
  2. @echo off
  3. ::当前目录(不含子目录)下所有*.txt文件去重
  4. dir /b/a-d *.txt>"tmp.all"
  5. cscript /e:jscript "%~f0" "tmp.all"
  6. del /q "tmp.all"
  7. exit/b
  8. */
  9. var v = WSH.arguments;
  10. var fso = new ActiveXObject('scripting.filesystemobject');
  11. var fp = fso.opentextfile(v(0));
  12. var strline = fp.readall(); fp.close();
  13. var alllines = strline.split('\r\n');
  14. while (alllines[alllines.length-1] == '') alllines.length--;
  15. for (var n=0, nmax=alllines.length; n<nmax; ++n) {
  16.         var txtF = alllines[n].replace(/\r\n/g, '');
  17.         fp = fso.opentextfile(txtF);
  18.         strline = fp.readall(); fp.close();
  19.         var _strline = '\r\n', _alllines = strline.split('\r\n');
  20.         while (_alllines[_alllines.length-1] == '') _alllines.length--;
  21.         for (var k=0, kmax=_alllines.length; k<kmax; ++k) {
  22.                 if (_strline.indexOf('\r\n'+_alllines[k]+'\r\n') == -1)
  23.                         _strline += _alllines[k]+'\r\n';
  24.         }
  25.         if (_strline == '\r\n') continue;
  26.         fp = fso.opentextfile(txtF+'.new', 2, true);
  27.         fp.write(_strline.substr(2)); fp.close();
  28. }
  29. WSH.quit();
复制代码
 楼主| 发表于 2023-9-19 08:42:41 | 显示全部楼层
回复 22# 77七

哥哥的也正确
 楼主| 发表于 2023-9-19 08:43:51 | 显示全部楼层
回复 23# aloha20200628


   谢谢哥哥
发表于 2023-9-19 09:13:35 | 显示全部楼层
回复 20# pd1


请用两种写法分别试试这个测试用例。

1.txt内容如下:
bathome
net

2.txt内容如下:
bathome

评分

参与人数 1技术 +1 收起 理由
pd1 + 1 貌似懂了

查看全部评分

发表于 2023-9-19 09:33:17 | 显示全部楼层
回复 26# Batcher


    意思就是处理完第一个文件后,如果变量定义不清掉,第二个文件里如果有同样的字符,会被认为前面已经出现过吧
发表于 2023-9-19 09:56:24 | 显示全部楼层
回复 27# pd1


    是的。写在外面的话,有点类似于把所有文本合并在一起去重的效果。
发表于 2023-9-19 11:19:08 | 显示全部楼层

如果仅是优化纯P版本,还是要加持一些容错装备,以下是对12楼代码的订正...
不仅是“吃入”时要用双引号包裹%%i,“吐出”时也要用双引号包裹%%i,但须改用set/p...写出方可。
入时双引号包裹可保全变量名中特殊字符,如 set "123 zx|er&qw!kk%uu^12=1"。出时双引号包裹可保全绝大部分特殊字符,但!^会溜号。
变量延迟须包裹内循环体,就是为防止多个文件未处理完即有可能被变量名字典剧增而打爆CMD内存,例如两个5000+行的文件,若去重率极低,就可能会用尽内存开销...

  1. @echo off
  2. for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
  3.         setlocal enabledelayedexpansion
  4.         (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
  5.                 set "_%%i=1"
  6.                 set/p="%%i"<nul
  7.                 echo,)
  8.         )>"%%~a.new"
  9.         endlocal
  10. )
复制代码
发表于 2023-9-19 11:32:00 | 显示全部楼层
回复 29# aloha20200628


    setlocal足以,enabledelayedexpansion是否可以去掉
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 12:13 , Processed in 0.023450 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表