[文本处理] [已解决]批处理如何对比处理2个文本之间重复的内页域名？

find

少将

Rank: 8 Rank: 8

帖子: 832
积分: 6744
技术: 42
捐助: 0
注册时间: 2012-1-4

3楼

发表于 2012-3-31 21:59 | 只看该作者

请分别从两个文件里面各取10行真实数据贴出来，然后把你希望得到的结果也贴出来。

1 评分人数

CrLf: 乐于助人PB + 5

早中晚各问自己一遍：你平均每周帮助别人解决几个问题？

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

4楼

发表于 2012-4-1 09:09 | 只看该作者

回复 3# find

好的可能我意思表达的不太清楚假设下面10条网址是我的旧资源
http://pluesystem.com/seo.html
http://plumbingcosydney.com.au/links
http://pn-kuningan.go.id/node/2
http://pnsbfc.com/v2/node/118
http://pnwoutdoors.com/hunting/1380-meet-swingers-threesomes.html
http://pocketpaindoctor.com/?q=node/21
http://pocketpaindoctor2.corporateconstipation.com/?q=node/21
http://pocketshark.com/blog/page/joseshin?entry=wonderful_prospect_for_the_industry
http://pointspread.com/news/mlb/brandon-league-hasn’t-blown-closer’s-role-yet.html

再下面这10条是我的新资源
http://pluesystem.com/s23423523522424eo.html
http://plumbingcosydney.com.au/links114124141313412
http://pn-kuningan.go.id/node/222222222222222224241414
http://pnsbfc.com/v2/node/11812222222222124124
http://pnwoutdoors.com/hunting/1380-meet-swingers-threesomes.html14444411214

http://guardian.co.uk/books/2004/oct/27/booksforchildrenandteenagers
http://guardiannews.us
http://guccihoody.medykblog.pl
http://gudangfiles.com/showpads.php?cat=desktop::screen%20savers:%20other
http://guernicamag.com/blog/2133/okey_ndibe_my_debt_to_nigerias

然后这5个网址是我想要的结果
http://guardian.co.uk/books/2004/oct/27/booksforchildrenandteenagers
http://guardiannews.us
http://guccihoody.medykblog.pl
http://gudangfiles.com/showpads.php?cat=desktop::screen%20savers:%20other
http://guernicamag.com/blog/2133/okey_ndibe_my_debt_to_nigerias

我这样举例不知道版主和这位大大能否看明白没你门仔细看就会发现旧资源中有http://pluesystem.com/seo.html 而新资源中有http://pluesystem.com/s23423523522424eo.html 它们同是http://pluesystem.com 这个网站的内页域名。。。也就是说我的排除条件是建立在http://pluesystem.com 这种主域名上的再说的土点就是到.com(当然网址后缀不止是.com。。总之就是以网站主域名来判断）这里为判断是否重复条件而不是看整条网址这样不知道能否做到。。。提醒下在下处理的数据量都是几十W级别的。。如果批处理的话在数据量大的时候不知道会出错不还望版主及各位大侠出手啊

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

5楼

发表于 2012-4-1 09:10 | 只看该作者

回复 2# batman

哈哈抱歉。。表达能力比较差= =！例子我已经举例在楼下了麻烦版主帮忙看下谢谢。。

ArdentMan

中尉

Rank: 5 Rank: 5

帖子: 288
积分: 924
技术: 70
捐助: 0
注册时间: 2011-7-1

6楼

发表于 2012-4-1 09:21 | 只看该作者

本帖最后由 ArdentMan 于 2012-4-1 09:28 编辑

几十万条无法测试效率

@Echo Off
For /F "Tokens=2 Delims=/" %%a In (旧文本) Do Set "%%a=a"
(For /F "Tokens=2* Delims=/" %%a In (新文本) Do (
  If Not Defined %%a Echo http://%%a/%%b
))>$
move $ 新文本
复制代码

1 评分人数

CrLf: 感谢给帖子标题标注[已解决]字样技术 + 1

一路飘过的鸟~~~

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

7楼

发表于 2012-4-1 17:18 | 只看该作者

回复 6# ArdentMan

测试了下木有动静啊文本命名为新文本旧文本

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

8楼

发表于 2012-4-1 17:23 | 只看该作者

回复 6# ArdentMan

生成出来的文件为未知文件

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

9楼

发表于 2012-4-1 17:39 | 只看该作者

回复 2# batman

召唤版主各路神仙

Rank: 1

帖子: 53
积分: 27
技术: 0
捐助: 0
注册时间: 2011-12-8

10楼

发表于 2012-4-7 09:49 | 只看该作者

哎最终还是个朋友帮忙解决了不过还是感谢上面的大大