[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误
  1. @echo off
  2. for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
  3. setlocal enabledelayedexpansion
  4. (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
  5. set "_%%i=1" &echo,%%i))>"%%~a.new"
  6. endlocal
  7. )
复制代码

TOP


变量名字典采用前缀 _ 或 $ 或 # 等字符乃是一种防空对策,一旦遭遇文本行皆为空格时,set   =... 就会出现问题。
另提示17楼》循环体内的外部程序被频繁调用会导致运行效率明显滑坡,尤其是要管控内层循环,其效应是倍增的...
1

评分人数

    • 77七: 感谢分享技术 + 1

TOP


如果实际应用场合没有那么多纯P的'天敌',变量名字典真是纯P代码得以如此轻快的一个好方法。
再给一个jscript+纯P混编的版本(存盘为.cmd或.bat文件),但愿能助纯P一臂之力...
  1. @set @v=1 /*
  2. @echo off
  3. ::当前目录(不含子目录)下所有*.txt文件去重
  4. dir /b/a-d *.txt>"tmp.all"
  5. cscript /e:jscript "%~f0" "tmp.all"
  6. del /q "tmp.all"
  7. exit/b
  8. */
  9. var v = WSH.arguments;
  10. var fso = new ActiveXObject('scripting.filesystemobject');
  11. var fp = fso.opentextfile(v(0));
  12. var strline = fp.readall(); fp.close();
  13. var alllines = strline.split('\r\n');
  14. while (alllines[alllines.length-1] == '') alllines.length--;
  15. for (var n=0, nmax=alllines.length; n<nmax; ++n) {
  16. var txtF = alllines[n].replace(/\r\n/g, '');
  17. fp = fso.opentextfile(txtF);
  18. strline = fp.readall(); fp.close();
  19. var _strline = '\r\n', _alllines = strline.split('\r\n');
  20. while (_alllines[_alllines.length-1] == '') _alllines.length--;
  21. for (var k=0, kmax=_alllines.length; k<kmax; ++k) {
  22. if (_strline.indexOf('\r\n'+_alllines[k]+'\r\n') == -1)
  23. _strline += _alllines[k]+'\r\n';
  24. }
  25. if (_strline == '\r\n') continue;
  26. fp = fso.opentextfile(txtF+'.new', 2, true);
  27. fp.write(_strline.substr(2)); fp.close();
  28. }
  29. WSH.quit();
复制代码

TOP


如果仅是优化纯P版本,还是要加持一些容错装备,以下是对12楼代码的订正...
不仅是“吃入”时要用双引号包裹%%i,“吐出”时也要用双引号包裹%%i,但须改用set/p...写出方可。
入时双引号包裹可保全变量名中特殊字符,如 set "123 zx|er&qw!kk%uu^12=1"。出时双引号包裹可保全绝大部分特殊字符,但!^会溜号。
变量延迟须包裹内循环体,就是为防止多个文件未处理完即有可能被变量名字典剧增而打爆CMD内存,例如两个5000+行的文件,若去重率极低,就可能会用尽内存开销...
  1. @echo off
  2. for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
  3. setlocal enabledelayedexpansion
  4. (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
  5. set "_%%i=1"
  6. set/p="%%i"<nul
  7. echo,)
  8. )>"%%~a.new"
  9. endlocal
  10. )
复制代码

TOP


setlocal/endlocal 与 setlocal enabledelayedexpansion/endlocal 均能继承而不改变外部%v%,但前者没有!v!创建、引用及其延迟功能。个人习惯采用后者以便代码变化应需而留有余地,且不多几个字符。

TOP

返回列表