[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 两个较大的文本,批处理如何进行对比、删除重复的内容?

文本A.TXT,约有30M,包含完整数据,如下:
1, 8,13,22,26,32
1, 8,13,22,26,33
1, 8,13,22,26,30
1, 8,13,22,26,31
1, 8,13,22,26,29
1, 8,13,22,26,28
1, 8,13,22,26,27
1, 8,13,22,25,26
1, 8,13,22,25,32
1, 8,13,22,25,33
1, 8,13,22,25,30
1, 8,13,22,25,31
1, 8,13,22,25,29
1, 8,13,22,25,28
1, 8,13,22,25,27
1, 8,13,22,25,26
1, 8,13,22,27,32
1, 8,13,22,27,33
1, 8,13,22,27,30
1, 8,13,22,27,31
1, 8,13,22,27,29
1, 8,13,22,27,28
1, 8,13,22,26,27
1, 8,13,22,25,27
1, 8,13,22,29,32
1, 8,13,22,29,33……

文本B.TXT,是文本A的部分内容,如下:
10,11,12,13,26,28
4,9,19,20,21,26
1,7,10,23,28,32
4,6,7,10,13,25
4,6,15,17,30,31
1,3,10,21,26,27
1,9,19,21,23,26
5,8,9,14,17,23
5,9,18,20,22,30
1,2,8,13,17,24
4,5,11,12,30,32
2,12,16,17,27,30
8,13,17,21,23,32……

第一步删除完全重复内容,现在需要在文本A中,查找到文本B的内容,并将之删除,形成新的无重复内容文本C。
也就是A-B=C;

第二步删除部分重复内容,比如文本B中的10,11,12,13,26,28,如果在文本A中发现“10,11,12,13”或“11,12,13,26”或“12,13,26,28”,也就是其中连续四个数相同的,也视为重复,从文本A中删除。

请教高手如何才能做到?

非常感谢!

有高手会吗,怎么帮忙解决呢

TOP

文本太多用不了FOR~~去求第三方工具吧
第一步用这条吧
findstr /xvg:b.txt a.txt c.txt

[ 本帖最后由 qq106942397 于 2010-10-23 19:11 编辑 ]

TOP

原帖由 qq106942397 于 2010-10-23 19:07 发表
文本太多用不了FOR~~去求第三方工具吧
第一步用这条吧
findstr /xvg:b.txt a.txt c.txt


谢谢!第一步解决。

第二步其实就是:

从一个文本B每组数据的6个数中,任意提取5个,与文本A的每组数据进行对比,如果发现有重合的,则删除文本A的一组数据。

第三个工具好像没有。

TOP

这么多人就没人可以解决吗?

TOP

这个问题很难吗?

删除部分重复内容,比如文本B中的10,11,12,13,26,28,如果在文本A中发现“10,11,12,13”或“11,12,13,26”或“12,13,26,28”,也就是其中连续四个或四个以上的数(最好可以自定义指定)相同的,也视为重复,从文本A中删除。

让高手们都没办法解决?

TOP

????????????????????????????????????

TOP

返回列表