找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 31352|回复: 6

[文本处理] [已解决]怎么用批处理提取网页的全部链接

[复制链接]
发表于 2014-6-29 00:02:27 | 显示全部楼层 |阅读模式
本帖最后由 hlzj88 于 2014-6-29 17:22 编辑

最近在用批处理做小说下载整合bat,一般网页的提取已经解决,因为他们是一行一个链接。但想具有更好的提取整理功能,遇到类似这个地址的,不知道怎么提取了。
http://www.abcsee.net/book/27/27026/ 因为这个的每行都有几个链接。希望能得到帮助。同时也希望能兼容每行一个链接的网页地址。http://www.9laidu.com/0/278/index.html
要求是提取的网页链接能以每行
开篇(一)|http://www.abcsee.net/book/27/27026/6717602.html或开篇(一)|6717602.html
这样的形式保存。

评分

参与人数 1PB +2 收起 理由
Batcher + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2014-6-29 01:06:00 | 显示全部楼层
一万多字的行无法直接处理,要么借助 js/vbs,要么用第三方,要么用 sep/p 拼接
发表于 2014-6-29 01:16:40 | 显示全部楼层
  1. sed "/^<dd>/!d;s/</\n&/g" "妖瞳公主 最新章节 无弹窗广告 - 北辰文学网.htm"|sed "/^<a/!d;s/.*\x22\(.*\)\x22>/\1|/g"
复制代码
 楼主| 发表于 2014-6-29 17:21:29 | 显示全部楼层
回复 3# CrLf

谢谢,sed尝试了,版本不对,用htox32c 后每行只有4个链接,自己解决了。
发表于 2014-6-30 21:50:56 | 显示全部楼层
回复 4# hlzj88


把你的代码发出来给大家分享一下吧

另外,可以试试这个sed版本:
http://pan.baidu.com/s/1pJkDALt
发表于 2014-7-1 11:19:54 | 显示全部楼层
发给BAT+JS 仅测试一楼数据
  1. @if(0)==(0) echo off
  2. cscript -nologo -e:jscript %0 <a.htm
  3. pause&exit
  4. @end
  5. var re = /<a href="(\d+\.html)".*?>(.+?)<\/a>/ig;
  6. var rs = WScript.StdIn.ReadAll().match(re);
  7. var length = rs.length;
  8. for (i=0; i<length; i++) {
  9.      WScript.Echo(rs[i].replace(re,'$2 | $1'));
  10. }
复制代码
 楼主| 发表于 2014-7-1 19:55:08 | 显示全部楼层
回复 5# Batcher
关于整理后链接的提取,代码我已经发这个地址。不多占论坛空间。
http://www.bathome.net/thread-30798-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-21 07:44 , Processed in 0.033467 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表