文本A.TXT,约有30M,包含完整数据,如下:
1, 8,13,22,26,32
1, 8,13,22,26,33
1, 8,13,22,26,30
1, 8,13,22,26,31
1, 8,13,22,26,29
1, 8,13,22,26,28
1, 8,13,22,26,27
1, 8,13,22,25,26
1, 8,13,22,25,32
1, 8,13,22,25,33
1, 8,13,22,25,30
1, 8,13,22,25,31
1, 8,13,22,25,29
1, 8,13,22,25,28
1, 8,13,22,25,27
1, 8,13,22,25,26
1, 8,13,22,27,32
1, 8,13,22,27,33
1, 8,13,22,27,30
1, 8,13,22,27,31
1, 8,13,22,27,29
1, 8,13,22,27,28
1, 8,13,22,26,27
1, 8,13,22,25,27
1, 8,13,22,29,32
1, 8,13,22,29,33……
文本B.TXT,是文本A的部分内容,如下:
10,11,12,13,26,28
4,9,19,20,21,26
1,7,10,23,28,32
4,6,7,10,13,25
4,6,15,17,30,31
1,3,10,21,26,27
1,9,19,21,23,26
5,8,9,14,17,23
5,9,18,20,22,30
1,2,8,13,17,24
4,5,11,12,30,32
2,12,16,17,27,30
8,13,17,21,23,32……
第一步删除完全重复内容,现在需要在文本A中,查找到文本B的内容,并将之删除,形成新的无重复内容文本C。
也就是A-B=C;
第二步删除部分重复内容,比如文本B中的10,11,12,13,26,28,如果在文本A中发现“10,11,12,13”或“11,12,13,26”或“12,13,26,28”,也就是其中连续四个数相同的,也视为重复,从文本A中删除。
请教高手如何才能做到?
非常感谢! |