[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
  1. @echo off
  2. grep -v "<TR.*<TD" web.html | grep -A 9 "<TR bgColor=" > web_1.html
  3. sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
  4. gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
  5. del /f web_1.html web_2.html
复制代码
grep.exe sed.exe gawk.exe 下载地址:
http://code.google.com/p/gnu-on-windows/downloads/list

TOP

回复 6# hijackle


我修改了一下,现在可以取到两千多条数据了。
  1. @echo off
  2. sed "s#></TR>#>\n</TR>#; s#><TD#>\n<TD#g" web.html > web_0.html
  3. grep -v "<TR.*<TD" web_0.html | grep -A 9 "<TR bgColor=" > web_1.html
  4. sed -r "/^<TR/d; s#^</TR>.*##; /点击查看/ s/.*a href=(http[^ ]+) .*/点击查看 \1/; s/<[^>]+>//g" web_1.html > web_2.html
  5. gawk -v RS="\n\n+" "$1=$1" web_2.html | findstr "http:" | gawk "!a[$0]++" > web.txt
  6. del /f web_0.html web_1.html web_2.html
复制代码

TOP

回复 9# hijackle


    你测试的结果,7楼和8楼分别获取了多少条?

TOP

返回列表