100元求个文本处理的批处理 - 有偿求助 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

1楼 跳转到 »

发表于 2013-9-3 16:20 | 显示全部帖子

@echo off
grep -v "<TR.*<TD" web.html | grep -A 9 "<TR bgColor=" > web_1.html
sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
del /f web_1.html web_2.html
复制代码

grep.exe sed.exe gawk.exe 下载地址：
http://code.google.com/p/gnu-on-windows/downloads/list

TOP

DAIC

中将

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

2楼

发表于 2013-9-3 17:50 | 显示全部帖子

回复 6# hijackle

我修改了一下，现在可以取到两千多条数据了。

@echo off
sed "s#></TR>#>\n</TR>#; s#><TD#>\n<TD#g" web.html > web_0.html
grep -v "<TR.*<TD" web_0.html | grep -A 9 "<TR bgColor=" > web_1.html
sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
del /f web_0.html web_1.html web_2.html
复制代码

TOP

DAIC

中将

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

3楼

发表于 2013-9-3 19:13 | 显示全部帖子

回复 9# hijackle

你测试的结果，7楼和8楼分别获取了多少条？

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]