找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 78138|回复: 26

[文本处理] 如何提高批处理删除重复内容文本的效率?

[复制链接]
发表于 2013-3-11 22:54:58 | 显示全部楼层 |阅读模式
多个文本内有重复的字符,我设定一旦有重复的,就将其所含内容的整个文本删除,但是效率非常低下,1000个txt文档,就需要好几分钟。而我这里有上万个,求高手能否改进?
  1. @echo off&setlocal enabledelayedexpansion
  2. for %%a  in (*.txt) do (
  3.     for /f "usebackq delims=. tokens=2,*" %%b in (%%a) do (
  4.         set "str=%%b"
  5.         set "str=!str: =!"
  6.         for %%i in (!str!) do (
  7.         set/a _%%i+=1
  8.                 if !_%%i! gtr 2 echo %%a>>1.txt  2>nul  
  9.         )
  10.     set _%%i=
  11.     )
  12. )
  13. pause
复制代码
我这里写的是读入 1.txt

然后在读入的内容中发现

33303564545.txt
33303564545.txt
33303564545.txt
33303564545.txt
999999999999999.txt
999999999999999.txt
999999999999999.txt

以上是ECHO出来的,就是条件循环判断正确的,就其删除,但是会出现好几次,有上万个这样的文件,所以我想先写入一个文本,然后再根据文本上的地址删除,不知道有没有更加高效的方法,做到可以让删除的提示不出现那么多次,2>NUL 只是假象。。

意思就是换成 DEL 里面的路径文件,依旧效率不高,最好能只显示一次,然后一次性删除,不符合条件的文本。因为有上万个,希望能高效一点,求好心人解决!

运行是正常的,就是效率很低下。。
 楼主| 发表于 2013-3-11 23:13:53 | 显示全部楼层
通过在BATHOME的学习,慢慢的学会写代码,希望大家再帮帮我,自己顶一下。
 楼主| 发表于 2013-3-11 23:16:38 | 显示全部楼层
因为批处理每个都要历遍,但是为什么删除的时候,循环要检查好几次?
发表于 2013-3-11 23:30:09 | 显示全部楼层
这种情况,上万个文件用纯批来处理估计有点慢哦
发表于 2013-3-11 23:32:33 | 显示全部楼层
这样提高点不
  1. @echo off&setlocal enabledelayedexpansion
  2. (for %%i in (*.txt) do (
  3.     set "a="
  4.     for /f "delims=" %%j in ('sort "%%i"') do (
  5.         if not defined a (
  6.            if "!str!" == "%%j" set a=a&echo del "%%i"
  7.            set "str=%%j"
  8.         )
  9.     )
  10. ))>$.#
  11. start "" "notepad" "$.#"
  12. pause
复制代码

评分

参与人数 1技术 +1 收起 理由
wankoilz + 1 高!

查看全部评分

 楼主| 发表于 2013-3-11 23:35:39 | 显示全部楼层
回复 5# terse


    我那个是有格式的,所以必须按照上面的那种分隔符来,我去试试看!最最主要上万个。。
 楼主| 发表于 2013-3-11 23:36:59 | 显示全部楼层
回复 5# terse


    是加在最后?对么?试试看!
发表于 2013-3-11 23:47:55 | 显示全部楼层
回复  terse


    我那个是有格式的,所以必须按照上面的那种分隔符来,我去试试看!最最主要上万个。 ...
playinthesky 发表于 2013-3-11 23:35

有固定格式的话 把第二FOR 替换这样试
  1. for /f "tokens=2 delims=." %%j ..........
复制代码
 楼主| 发表于 2013-3-11 23:56:08 | 显示全部楼层
回复 8# terse


    超级高!!!非常快!!!谢谢高手,那我就是要那个文本文件改写成.BAT就可以吧?可不可以直接一点的。。
发表于 2013-3-11 23:59:35 | 显示全部楼层
纯批的话我会这样:
  1. @echo off
  2. findstr . *.txt|sort /o tmp.$
  3. (for /f "tokens=1* delims=:" %%a ni (tmp.$) do (
  4.    set "str=%%a"
  5.    setlocal enabledelayedexpansion
  6.    if !last!==!str! del "%%a"
  7.    endlocal
  8.    set last=%%a
  9. )) 2>nul
  10. pause
复制代码
 楼主| 发表于 2013-3-11 23:59:52 | 显示全部楼层
本帖最后由 playinthesky 于 2013-3-12 00:07 编辑

回复 8# terse


    我想加入计数器,在第二个FOR里面,重复内容5个以上的时候,删除文本,你的这个版本真心好!
 楼主| 发表于 2013-3-12 00:01:04 | 显示全部楼层
回复 10# CrLf


    是纯批处理,可不可以加入一个计数器,等到重复到一定个数的时候删除?求教。
 楼主| 发表于 2013-3-12 00:03:11 | 显示全部楼层
回复 5# terse


    高手,加个计数器,等到重复两个或者三个的时候,直接删除。谢谢
 楼主| 发表于 2013-3-12 00:05:23 | 显示全部楼层
回复 5# terse


    重复的数量上有限定要求,加入计数器在哪里比较好?
发表于 2013-3-12 00:19:22 | 显示全部楼层
本帖最后由 CrLf 于 2013-3-12 00:39 编辑

文件又多又大的话,用 vbs 会快很多
  1. Const [路径]="."       '这里设置路径
  2. Const [重复次数]="1"   '代表重复达到多少次就删除
  3. Set fso = CreateObject("scripting.filesystemobject")

  4. For Each file In fso.GetFolder([路径]).Files
  5.         If LCase(fso.GetExtensionName(file)) = "txt" Then
  6.                 If reTest(fso.OpenTextFile(file).ReadAll) Then
  7.                         file.Delete
  8.                 End If
  9.         End If
  10. Next

  11. Function reTest(text)
  12.         Set re = New RegExp
  13.         re.Global = True
  14.         re.Pattern = "\n(\S+)(?:(?:\n.*)?\n\1){" & [重复次数] & ",}\n"
  15.         reTest = re.Test(vbCrLf & text & vbCrLf)
  16. End Function
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 02:30 , Processed in 0.018978 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表