- 帖子
- 53
- 积分
- 27
- 技术
- 0
- 捐助
- 0
- 注册时间
- 2011-12-8
|
回复 3# find
好的 可能我意思表达的不太清楚 假设下面10条网址是我的旧资源
http://pluesystem.com/seo.html
http://plumbingcosydney.com.au/links
http://pn-kuningan.go.id/node/2
http://pnsbfc.com/v2/node/118
http://pnwoutdoors.com/hunting/1380-meet-swingers-threesomes.html
http://pocketpaindoctor.com/?q=node/21
http://pocketpaindoctor2.corporateconstipation.com/?q=node/21
http://pocketshark.com/blog/page/joseshin?entry=wonderful_prospect_for_the_industry
http://pointspread.com/news/mlb/brandon-league-hasn’t-blown-closer’s-role-yet.html
再下面这10条是我的新资源
http://pluesystem.com/s23423523522424eo.html
http://plumbingcosydney.com.au/links114124141313412
http://pn-kuningan.go.id/node/222222222222222224241414
http://pnsbfc.com/v2/node/11812222222222124124
http://pnwoutdoors.com/hunting/1380-meet-swingers-threesomes.html14444411214
http://guardian.co.uk/books/2004/oct/27/booksforchildrenandteenagers
http://guardiannews.us
http://guccihoody.medykblog.pl
http://gudangfiles.com/showpads.php?cat=desktop::screen%20savers:%20other
http://guernicamag.com/blog/2133/okey_ndibe_my_debt_to_nigerias
然后这5个网址是我想要的结果
http://guardian.co.uk/books/2004/oct/27/booksforchildrenandteenagers
http://guardiannews.us
http://guccihoody.medykblog.pl
http://gudangfiles.com/showpads.php?cat=desktop::screen%20savers:%20other
http://guernicamag.com/blog/2133/okey_ndibe_my_debt_to_nigerias
我这样举例不知道版主和这位大大能否看明白没 你门仔细看就会发现 旧资源中有http://pluesystem.com/seo.html 而新资源中有http://pluesystem.com/s23423523522424eo.html 它们同是http://pluesystem.com 这个网站的内页域名。。。也就是说 我的排除条件 是建立在http://pluesystem.com 这种主域名上的 再说的土点 就是到.com(当然网址后缀不止是.com。。总之就是以网站主域名来判断)这里为判断是否重复条件 而不是看整条网址 这样不知道能否做到。。。提醒下 在下处理的数据量都是几十W级别的。。如果批处理的话 在数据量大的时候不知道会出错不 还望版主及各位大侠出手啊 |
|