Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2010-10-23 09:31 | 只看该作者

[文本处理] 两个较大的文本，批处理如何进行对比、删除重复的内容？

文本A.TXT，约有30M，包含完整数据，如下：
1, 8,13,22,26,32
1, 8,13,22,26,33
1, 8,13,22,26,30
1, 8,13,22,26,31
1, 8,13,22,26,29
1, 8,13,22,26,28
1, 8,13,22,26,27
1, 8,13,22,25,26
1, 8,13,22,25,32
1, 8,13,22,25,33
1, 8,13,22,25,30
1, 8,13,22,25,31
1, 8,13,22,25,29
1, 8,13,22,25,28
1, 8,13,22,25,27
1, 8,13,22,25,26
1, 8,13,22,27,32
1, 8,13,22,27,33
1, 8,13,22,27,30
1, 8,13,22,27,31
1, 8,13,22,27,29
1, 8,13,22,27,28
1, 8,13,22,26,27
1, 8,13,22,25,27
1, 8,13,22,29,32
1, 8,13,22,29,33……

文本B.TXT，是文本A的部分内容，如下：
10,11,12,13,26,28
4,9,19,20,21,26
1,7,10,23,28,32
4,6,7,10,13,25
4,6,15,17,30,31
1,3,10,21,26,27
1,9,19,21,23,26
5,8,9,14,17,23
5,9,18,20,22,30
1,2,8,13,17,24
4,5,11,12,30,32
2,12,16,17,27,30
8,13,17,21,23,32……

第一步删除完全重复内容，现在需要在文本A中，查找到文本B的内容，并将之删除，形成新的无重复内容文本C。
也就是A-B=C；

第二步删除部分重复内容，比如文本B中的10,11,12,13,26,28，如果在文本A中发现“10,11,12,13”或“11,12,13,26”或“12,13,26,28”，也就是其中连续四个数相同的，也视为重复，从文本A中删除。

请教高手如何才能做到？

非常感谢！

yaojiucai

列兵

Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

2楼

发表于 2010-10-23 11:35 | 只看该作者

有高手会吗，怎么帮忙解决呢

TOP

qq106942397

二级士官

Rank: 2

帖子: 34
积分: 181
技术: 0
捐助: 0
注册时间: 2009-4-29

3楼

发表于 2010-10-23 19:07 | 只看该作者

文本太多用不了FOR~~去求第三方工具吧
第一步用这条吧
findstr /xvg:b.txt a.txt c.txt

[ 本帖最后由 qq106942397 于 2010-10-23 19:11 编辑 ]

TOP

yaojiucai

列兵

Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

4楼

发表于 2010-10-23 19:21 | 只看该作者

原帖由 qq106942397 于 2010-10-23 19:07 发表
文本太多用不了FOR~~去求第三方工具吧
第一步用这条吧
findstr /xvg:b.txt a.txt c.txt

谢谢！第一步解决。

第二步其实就是：

从一个文本B每组数据的6个数中，任意提取5个，与文本A的每组数据进行对比，如果发现有重合的，则删除文本A的一组数据。

第三个工具好像没有。

TOP

yaojiucai

列兵

Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

5楼

发表于 2010-10-26 12:34 | 只看该作者

这么多人就没人可以解决吗？

TOP

yaojiucai

列兵

Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

6楼

发表于 2010-10-27 08:52 | 只看该作者

这个问题很难吗？

删除部分重复内容，比如文本B中的10,11,12,13,26,28，如果在文本A中发现“10,11,12,13”或“11,12,13,26”或“12,13,26,28”，也就是其中连续四个或四个以上的数（最好可以自定义指定）相同的，也视为重复，从文本A中删除。

让高手们都没办法解决？

TOP

yaojiucai

列兵

Rank: 1

帖子: 6
积分: 28
技术: 0
捐助: 0
注册时间: 2010-10-23

7楼

发表于 2010-11-6 01:40 | 只看该作者

????????????????????????????????????

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 两个较大的文本，批处理如何进行对比、删除重复的内容？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]