[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [讨论]批处理findstr和变量赋值法查找文本的结果和效率差异

今天突然想起了前些日子讨论过的问题,有A,B两个文本,文本内的都是邮件地址,其中A文本内71332个地址,B文本有122530个地址,以上两个数据是我实测得出的,当时提问者的要求是找出A文本中跟B中重复的地址,并删除,只留下不重复的地址,至于B是个参照,可要可不要
     对于这个问题印象很深刻,自己思考写了个代码,是逐一对比的,也就是需要进行71332*122530次对比,结果一算下了我一跳,大概是87.4亿次比较,效率极低,所以就这个问题在①群提出,当时很多人都参与了讨论研究,当晚未果,第二天是我在问batman问题的时候,因为当晚他未在,顺便提出这个问题的,man直接给了代码,man的代码用到了变量赋值将乘积的工作量变成了和的工作量,只需要进行71332+122530此对比,即20万次比较,相对于87.4亿比较的工作量,缩短的效率就可想而知了,呵呵,这是前话,暂且放下不提。
      原本已经解决的问题,为何我又搬出来了呢?因为本人新手,很多东西我总是自己去测试,有些教程相信作者是很辛苦分享的,但是看得多了发现很多还是有一定的误区的,因此为了让自己的基础扎的牢实,以后给别人分享的时候不至于误导新手,我总是对一些模糊的模棱两可的代码用自己的思路去测试,不懂就问群里的各位前辈,以确定准确的知识点,由此引出了对findstr和for中变量赋值的探讨,也正是今天要提到的主题
      相信大家都知道findstr命令本身带有的参数也可以实现比较两个文本去掉重复,能达到和for变量赋值一样的效果,因此觉得测试它们之间到底哪个效率高,以便以后遇到次类似问题,优先选用高效的方法,以下是我演示的过程:
      最初for变量赋值的代码是没有疑问的,当然在这要提一点就是for变量赋值处理并生成结果888.txt用了38分钟,只要明白原理相信大家都可以写出来,我会在以后做出解释,暂且来谈谈findstr这个命令:
     首先我用了个简单的例子1.txt
  1. 124
  2.                                       125
  3.                                       145
  4.                                       147
复制代码
2.txt
  1. 124
  2.                                       125
  3.                                       547
  4.                                       856
复制代码
我用的命令是findstr /v /g:2.txt 1.txt测试,这里解释一下参数/v 只打印不包含匹配的行; /g:file 从指定的文件获得搜索字符串,然后看以上两个文本结果是145,147,这个是将1中跟2重复的去掉只保留1跟2不重复的,跟那两个邮件文本的要求是同理的,然后我就测试那两个超大邮件文本,时间用了6分钟效率倒是蛮高的,可是得到的结果跟for变量赋值的结果比较却少得可怜,这是什么原因导致的呢?是findstr对大文本的机制问题?还是我对命令的不完全了解?带着这个疑问到群里咨询,恰巧随风也在,讨论一会未果,batman也冒出来了,一语惊醒梦中人,他指出了我用findstr的疑问,因为我没有指明是否完全匹配,少了这个参数/x,结果自然大大改观,并就我测试的问题举了个例子:
                           1.txt
  1. 124
  2.                                       125
  3.                                       145
  4.                                       147
  5.                                       1243
  6.                                       1241
复制代码
2.txt
  1. 124
  2.                                       125
  3.                                       547
  4.                                       856
复制代码
同样使用上面的命令findstr /v /g:2.txt 1.txt测试,结果我们发现得多的答案还是145,147,这是什么原因呢?明明1文本内还有1243,1241啊,它怎么不要了呢?问题就出在这儿,如果不指明参数/x,命令解释是打印完全匹配的行,它会默认只要有124字符的都认为是相同的,所以它会抛弃1243,1241,想要得到我们准确的结果的话你可以测试加上参数/x
                代码如下
  1. findstr /v /x /g:2.txt 1.txt
复制代码
看到这个代码可能你会有疑问参数 /v 是只打印不包含匹配的行;/x 打印完全匹配的行,它们的并存不矛盾吗?呵呵,跟我一样以前以为这俩是矛盾的,为什么可以同时存在?man很明了的给了解释:只打印不包含完全匹配的行。如果不明白再仔细回味一下这句话,还是不明了,这个嘛只能建议start/call :新华字典 ^v^!
    都解决了,这回测试没问题了吧?走,再跟着我继续研究,for变量赋值得到的文本结果仍然未动,因为上次findstr的模糊寻找致使它很严肃的抛弃了很多真理,我再次测试重新加上了man前辈解释的/x参数,这次findstr生成的文本是666.txt,根据记录前后时间差得出的时间是19分钟,比起for变量赋值来效率果然大大提高,只用了它一半的时间,可是大家再跟我查看文本属性
          for变量赋值的结果888.txt
  1. 大小  289KB (296,671 字节)
复制代码
findstr的结果666.txt
  1. 大小  289KB (296,852 字节)
复制代码
你能发现什么?看起来大小一样,但是本文主要注重字节,我们比较发现它们是有差异的,差了181字节,到底差在哪?看来我还要做麻烦的比较了,但上帝很垂怜,打开这两个文本第一行就迥然不同,它们的排序都是a-z排列的,我们来看下前两行:
          for变量赋值的结果888.txt
  1. adrienpuget@wanadoo.fr
  2.                                          benedictembatso@hotmail.com
复制代码
findstr的结果666.txt
  1. AABIS@WANADOO.FR
  2.                                          adrienpuget@wanadoo.fr
  3.                                          benedictembatso@hotmail.com
复制代码
看出什么区别没有?findstr的结果明显多出了[email=AABIS@WANADOO.FR]AABIS@WANADOO.FR[/email]这么一行,而for变量赋值的方法没有,难道这两个有一个出错了??于是想了个办法,复制了这个邮件地址,打开A.txt用ctrl+f打开搜索字符串,发现A文本里可以查询到,同样在B文本里查询也能查询到,带着这个疑问将结果发给man看,man让我又加了一个参数/i,这个参数是什么呢?就是指定搜索不区分大小写,默认findstr搜索是区分大小写的,而for变量赋值法是不区分大小写的,当然就大小写的问题严格来说findstr是精确的,因为for变量赋值无法区分出大小写来,想来这是一个缺陷
      接下来我们接着测试研究,你会问既然findstr比for变量赋值法精确,为什么要加/i这个参数把大小写忽略了呢?这里就是我想研究的问题,到底findstr和for变量赋值法哪个更精确,假如它们得到的结果一致,至少我们以后就可以用效率高的代码,如果不一致到底哪个出错了?以后肯定要忽略效率而采用准确的代码咯!下面看新增参数的代码
                   如下
  1. findstr /v /x /i /g:2.txt 1.txt
复制代码
例子       1.txt
  1. 124
  2.                                       125
  3.                                       145
  4.                                       147
  5.                                       abc
  6.                                       CBD
  7.                                       ABC
复制代码
2.txt
  1. 124
  2.                                       125
  3.                                       547
  4.                                       856
  5.                                       cbd
  6.                                       abc
复制代码
首先我们来看不加参数/i,它是区分大小写的,得到的结果是145,147,CBD,ABC
我们看加上参数/i的结果是什么呢? 结果是145,147。这就是这个参数的作用,不区分大小写之后,它会认为CBD,ABC跟小写字母的是一致的,所以一同排除了,也就是我们看到的只有两个结果
     前面其实我们主要阐述了findstr寻找文本一些关键参数的作用和例子,那么在前面代码熟练了以后,我们下面开始简单介绍一下for变量赋值的代码,限于本人的理解水平,还望各位前辈指点
          先看个通俗的例子for /f "delims=" %%a in (a.txt) do echo %%a
如何理解它的通俗机制,我在这举个例子:我们去市场买苹果,老农把苹果都装在箱子里,摆在小摊上,我用这个例子来解释这个机制的动作,首先我们要从箱子a.txt中选苹果%%a,我们拿起一个苹果就是for这个动作,转了一圈看了一遍发现是好的就是"delims=" echo %%a,然后我们把苹果%%a放到手提袋里贮存起来,假设我们要买这一箱子a.txt苹果%%a,那我们都要看一遍echo %%a,也许解释的不够合理只是尽量通俗,好理解一些,下面看for变量赋值的代码
  1. @echo off
  2. set tm=%time%
  3. for /f "delims=" %%a in (B.txt) do (
  4.           if not defined %%a set "%%a=i"
  5. )
  6.     for /f "delims=" %%a in (A.txt) do (
  7.           if not defined %%a echo %%a>>888.txt
  8. )
  9. echo %tm% %time%
  10. pause
复制代码
这里的代码除了包含我上面通俗解释的内容,还多了if not defined,它的意思我个人理解是:如果没有被赋值,这也是被列在if用法里的一个经典的代码,上面代码的意思是将B文本里的内容预读一遍,如果没有%%a没有被赋值,就将%%a赋值一遍,然后我们再从A文本里预读,预读的同时也判断这个%%a是否被赋值,当读到A里跟B文本中相同的内容时,它已经在B里被赋值了,所以会被第二句代码里的if not defined %%a过滤掉,剩下来的就满足了最初提问者的要求去掉A文本里跟B里重复的地址,得到的就是未重复的,呵呵,讲的或许不是很好理解,仍然用买苹果的例子来讲前面我们挑苹果是理想状态的,箱子里的苹果都是好的,就这个if not defined我举一个通俗例子,还是买苹果的问题老农有两个①②箱子,如同AB那两个文本,两个箱子里面都装了两样苹果,青香蕉和红香蕉,是老农不小心搞混了的,但是我来买苹果就喜欢①箱子里的,它个大好看,而且我只想要红香蕉,这时老农说,②箱子里的苹果青香蕉贴了个“青”字,红香蕉贴了个“红”字,我都扫描了一遍果真如此,他又说①箱子的也这样,这时我便开始扫描①箱子的,因为我只要红香蕉,在看②箱子的时候青香蕉贴“青”字的苹果就等于被赋值了,我以那个“青”字为参考,在挑①箱子的苹果时,看见贴“青”字的就丢掉,呵呵当然买东西的时候,是不敢这么干的,只是放在别处,这就是if not defined的效果。。
    现在我们对于findstr前面已经研究到位了,最佳跟for变量赋值比较的代码也已经定位了,根据findstr的代码
  1. (findstr /v /x /i /g:B.txt A.txt)>>555.txt
复制代码
按我们的分析,这个代码理论上应该已经等于for变量赋值的代码了,现在我们来做个结果比较
          for变量赋值的结果888.txt
  1. 大小  289KB (296,671 字节)
复制代码
findstr的结果555.txt
  1. 大小  289KB (296,629 字节)
复制代码
相信细心的你也能发现它们差了42字节,还差??我就不相信整不明白了。。。最后我只好用了findstr命令将最后的这两个文本结果做了比较,找出了它们的差异
              findstr /v /x /i /g:555.txt 888.txt 结果如下
  1. lccq@free.fr  这个地址555中没有 888有
  2.                             oriana=-du_7141@hotmail.com  这个地址555中没有 888有
  3.                             p*.tournois@chello.fr  这个地址555中有  888也有
  4.                             v-dupuit@caramail.com  这个地址555中没有 888有
  5.                            
复制代码
这样比较的是从888中去掉跟555重复的地址,得出结果如上
同样如果我反过来测试呢?
               findstr /v /x /i /g:888.txt 555.txt 结果如下
  1. korantin\ds@hotmail.fr 这个地址555中有 888中没有
  2.                            p*.tournois@chello.fr  这个地址555中有  888也有
  3.                            
复制代码
这样比较的是从555中去掉跟888重复的地址,得出结果如上
看到我标注的没有,唯独这出现了问题!

想请各位前辈对于最后的这部分给予指点,并就findstr和for变量赋值哪个的结果更准确也给予指点


邮件AB文本太大无法上传 http://d.namipan.com/sd/102572    A邮件文本的下载地址
                                         http://d.namipan.com/sd/102574    B邮件文本的下载地址

[ 本帖最后由 jackerloo2009 于 2010-5-23 19:57 编辑 ]
4

评分人数

    • skuny: 从头看到尾 很好PB + 5
    • batman: 总结分析得很到位嘛,加油!PB + 20
    • namejm: 分析过程十分详细,钻研精神令人敬佩。PB + 20
    • Batcher: 探索精神值得鼓励PB + 10
学海无涯

应该是行尾的空格在作怪。
技术问题请到论坛发帖求助!

TOP

能否把附件上传到纳米盘、QQ中转站之类的网络磁盘上面,以便大家下载?
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

这样来计算for命令花费的时间似乎有点不公平啊,呵呵。
可以参考这个帖子,提高一下for命令写文件的速度:http://bbs.bathome.net/thread-4831-1-1.html
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

应该加上 /L 参数吧?因为邮件地址中含有“.,而这个点在 findstr 中表示任何字符。例如:

str.txt 的内容是a.b
file.txt 的内容是a1b
执行 findstr /xg:str.txt file.txt,会把a1b找出来。

/L 参数的意思是,按字面搜索,也就是不使用正则表达式。

TOP

回复 4楼 的帖子

重新让随风优化过代码,重新挂机测试过
随风的代码比我的原代码多用了一分钟
学海无涯

TOP

优化后的代码为:
  1. @echo off
  2. set tm=%time%
  3. (for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i"
  4. for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
  5. )>888.txt
  6. echo %tm% %time%
  7. pause
复制代码
比你之前的代码只是在变量名前面多加了个点,怎么会使效率如此低下?
节省了7万次开关I/O 居然会没有区别?
技术问题请到论坛发帖求助!

TOP

5楼说的对,还应该加/L参数。

另外,findstr 本来就是不可信任的,存在诸多已知和未知的问题。在很多场合尽量不要用findstr。
  1. echo 王志慧|findstr ".*净"
  2. set>env.tmp
  3. findstr /l /v /x /g:env.tmp env.tmp
复制代码
命令行参考:hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心,别人才愿意奉献热心!
把查看手册形成条件反射!

TOP

回复 7楼 的帖子

应该没有7万次的I/O开关。
楼主的代码只是把A中有,而B中没有的写入到888.txt中,从楼主得到的888.txt文件的大小(289k),把每个邮件地址算成13个字节左右(大概)。用289k除一下13字节,估计是2万多行。

不知道效率低了,是不是因为给变量加了个点作标示引起的,还是别的原因,有待研究。

有不对的地方,请指教。
(*^_^*)

TOP

回复 7楼 的帖子

09-06-27
今天早晨再次用7楼的代码进行测试,时间为39分04秒
仍旧比我的原代码多了1分钟,还请亲自验证,以及分析一下原因
学海无涯

TOP

回复 10楼 的帖子

不防给你原来的代码变量名也加上一个点,再测试,更公平
  1. @echo off
  2. set tm=%time%
  3. for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i"
  4. for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a>>888.txt
  5. echo %tm% %time%
  6. pause
复制代码
技术问题请到论坛发帖求助!

TOP

回复 11楼 的帖子

额。。。这个测试了40分钟06秒
学海无涯

TOP

如果楼主有时间还可以再试试这段代码,看到底谁更快些。。
话说,7楼与11楼代码效率不相上下,实在有点想不通~
:
  1. @echo off
  2. set tm=%time%
  3. echo. >nul 3>888.txt
  4. for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i"
  5. for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
  6. echo. >nul 4>con
  7. echo %tm% %time%
  8. pause
复制代码
技术问题请到论坛发帖求助!

TOP

我想是找到问题原因了
bb.txt 每行一个邮箱地址,共122530行
分别作了以下测试,证明设置大量的变量不但耗费内存,而且及其影响效率。
代码一、耗时 0 小时 0 分钟 18 秒 21 毫秒
  1. @echo off
  2. set t=%time%
  3. echo. >nul 3>888.txt
  4. for /f "delims=" %%a in (bb.txt)do (
  5.    set ".asklfjkaldfjajfafd@.fjaa=i"
  6.    echo %%a
  7. )
  8. echo. >nul 4>con
  9. call time0
  10. pause
复制代码

代码二、直到内存报警还未出结果
  1. @echo off
  2. set t=%time%
  3. for /f "delims=" %%a in (bb.txt)do set ".%%a=i"
  4. call time0
  5. pause
复制代码

测试环境xp sp2 内存512m  Celeron(R) cpu 2.40GHz
.
看来7楼代码效率低是括弧用的不对,改进如下,最好请楼主再测试一下,数据更标准。
效率应该会高些,但不会有太大区别,因为最终结果888.txt的行数并不太多。
.
总的来说应该是13楼代码效率最高,因为占用内存是最少的。
其次应该就是下面的代码,
最慢的应该是11楼的。
  1. @echo off
  2. set tm=%time%
  3. for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i"
  4. (for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
  5. )>888.txt
  6. echo %tm% %time%
  7. pause
复制代码

[ 本帖最后由 随风 于 2009-6-27 11:56 编辑 ]
技术问题请到论坛发帖求助!

TOP

回复 13楼 的帖子

楼上的这个用了39分26秒
学海无涯

TOP

返回列表