[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 如何提高批处理删除重复内容文本的效率?

多个文本内有重复的字符,我设定一旦有重复的,就将其所含内容的整个文本删除,但是效率非常低下,1000个txt文档,就需要好几分钟。而我这里有上万个,求高手能否改进?
  1. @echo off&setlocal enabledelayedexpansion
  2. for %%a  in (*.txt) do (
  3.     for /f "usebackq delims=. tokens=2,*" %%b in (%%a) do (
  4.         set "str=%%b"
  5. set "str=!str: =!"
  6.         for %%i in (!str!) do (
  7. set/a _%%i+=1
  8.                 if !_%%i! gtr 2 echo %%a>>1.txt  2>nul  
  9.         )
  10.     set _%%i=
  11.     )
  12. )
  13. pause
复制代码
我这里写的是读入 1.txt

然后在读入的内容中发现

33303564545.txt
33303564545.txt
33303564545.txt
33303564545.txt
999999999999999.txt
999999999999999.txt
999999999999999.txt

以上是ECHO出来的,就是条件循环判断正确的,就其删除,但是会出现好几次,有上万个这样的文件,所以我想先写入一个文本,然后再根据文本上的地址删除,不知道有没有更加高效的方法,做到可以让删除的提示不出现那么多次,2>NUL 只是假象。。

意思就是换成 DEL 里面的路径文件,依旧效率不高,最好能只显示一次,然后一次性删除,不符合条件的文本。因为有上万个,希望能高效一点,求好心人解决!

运行是正常的,就是效率很低下。。

通过在BATHOME的学习,慢慢的学会写代码,希望大家再帮帮我,自己顶一下。

TOP

因为批处理每个都要历遍,但是为什么删除的时候,循环要检查好几次?

TOP

这种情况,上万个文件用纯批来处理估计有点慢哦

TOP

这样提高点不
  1. @echo off&setlocal enabledelayedexpansion
  2. (for %%i in (*.txt) do (
  3.     set "a="
  4.     for /f "delims=" %%j in ('sort "%%i"') do (
  5.         if not defined a (
  6.            if "!str!" == "%%j" set a=a&echo del "%%i"
  7.            set "str=%%j"
  8.         )
  9.     )
  10. ))>$.#
  11. start "" "notepad" "$.#"
  12. pause
复制代码
1

评分人数

TOP

回复 5# terse


    我那个是有格式的,所以必须按照上面的那种分隔符来,我去试试看!最最主要上万个。。

TOP

回复 5# terse


    是加在最后?对么?试试看!

TOP

回复  terse


    我那个是有格式的,所以必须按照上面的那种分隔符来,我去试试看!最最主要上万个。 ...
playinthesky 发表于 2013-3-11 23:35

有固定格式的话 把第二FOR 替换这样试
  1. for /f "tokens=2 delims=." %%j ..........
复制代码

TOP

回复 8# terse


    超级高!!!非常快!!!谢谢高手,那我就是要那个文本文件改写成.BAT就可以吧?可不可以直接一点的。。

TOP

纯批的话我会这样:
  1. @echo off
  2. findstr . *.txt|sort /o tmp.$
  3. (for /f "tokens=1* delims=:" %%a ni (tmp.$) do (
  4.    set "str=%%a"
  5.    setlocal enabledelayedexpansion
  6.    if !last!==!str! del "%%a"
  7.    endlocal
  8.    set last=%%a
  9. )) 2>nul
  10. pause
复制代码

TOP

本帖最后由 playinthesky 于 2013-3-12 00:07 编辑

回复 8# terse


    我想加入计数器,在第二个FOR里面,重复内容5个以上的时候,删除文本,你的这个版本真心好!

TOP

回复 10# CrLf


    是纯批处理,可不可以加入一个计数器,等到重复到一定个数的时候删除?求教。

TOP

回复 5# terse


    高手,加个计数器,等到重复两个或者三个的时候,直接删除。谢谢

TOP

回复 5# terse


    重复的数量上有限定要求,加入计数器在哪里比较好?

TOP

本帖最后由 CrLf 于 2013-3-12 00:39 编辑

文件又多又大的话,用 vbs 会快很多
  1. Const [路径]="."       '这里设置路径
  2. Const [重复次数]="1"   '代表重复达到多少次就删除
  3. Set fso = CreateObject("scripting.filesystemobject")
  4. For Each file In fso.GetFolder([路径]).Files
  5. If LCase(fso.GetExtensionName(file)) = "txt" Then
  6. If reTest(fso.OpenTextFile(file).ReadAll) Then
  7. file.Delete
  8. End If
  9. End If
  10. Next
  11. Function reTest(text)
  12. Set re = New RegExp
  13. re.Global = True
  14. re.Pattern = "\n(\S+)(?:(?:\n.*)?\n\1){" & [重复次数] & ",}\n"
  15. reTest = re.Test(vbCrLf & text & vbCrLf)
  16. End Function
复制代码

TOP

返回列表