找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 23857|回复: 10

[文本处理] sed匹配html遇到的问题(基本解决了,谢谢各位)

[复制链接]
发表于 2021-5-22 16:50:08 | 显示全部楼层 |阅读模式
本帖最后由 netdzb 于 2021-5-22 20:09 编辑

@echo off
echo "</span></a><a href="http://www.360.com:8099/dl.php?MDEzNXRCT09G^" onclick=^"down_process2(^'159979^');"|sed -r "s/(.*)(href=)(\"http:.*\")(.*)/\3/"
上面是在windows控制台测试的代码

希望得到的结果是
"http://www.360.com:8099/dl.php?MDEzNXRCT09G"
实际运行是空行

我把代码改成shell代码,匹配的是贪婪模式,现在我也不知道怎么解决这个问题?

echo "</span></a ><a href=\"http://www.360.com:8099/dl.php?MDEzNXRCT09G\" onclick=\"down_process2(\'159979\');"|sed -r "s/(.*)(href=)(\"http:\/\/.*\")(.*)/\3/"
发表于 2021-5-22 17:05:46 | 显示全部楼层
没统计不知道全不全,包括第三方命令时
?<>()! ; ,\|&^="要加^
 楼主| 发表于 2021-5-22 17:18:21 | 显示全部楼层
回复 2# xp3000

我去试验一下,谢谢你。
发表于 2021-5-22 17:24:25 | 显示全部楼层
回复 2# xp3000


    "不用加^
 楼主| 发表于 2021-5-22 17:29:00 | 显示全部楼层
回复 2# xp3000

现在难题是sed这个工具没有懒惰模式,我现在匹配出来的结果是

"http://www.360.com:8099/dl.php?MDEzNXRCT09G" onclick="
它会去匹配他最长那个引号的串。
我现在打算用vbs的正则来写不知道可行吗?
 楼主| 发表于 2021-5-22 17:32:25 | 显示全部楼层
回复 4# 1152

sed的匹配不支持懒惰模式,不知道有什么可行的方案?
发表于 2021-5-22 17:34:16 | 显示全部楼层
回复 6# netdzb


    懒惰模式?
发表于 2021-5-22 18:24:28 | 显示全部楼层
匹配时不包含"(引号)
  1. sed -r "s#.*("http[[:alnum:]:?/.`~!@\#\$%^^^&-_=+(){},]*").*#\1#" a.html
复制代码
 楼主| 发表于 2021-5-22 18:47:06 | 显示全部楼层
本帖最后由 netdzb 于 2021-5-22 19:10 编辑

回复 8# cutebe

运行结果不正确,我把样本fea.txt传上来了,能否帮我看一下,谢谢!
请把http的链接给提取出来。

https://javame.lanzoui.com/irgt9pcxl3e
发表于 2021-5-22 20:02:58 | 显示全部楼层
VBS:
  1. Set fso = CreateObject("Scripting.FileSystemObject")
  2. For Each f in fso.GetFolder(".").Files
  3.     ext = LCase(fso.GetExtensionName(f))
  4.     If ext = "htm" or ext = "html" or ext = "txt" Then
  5.         txt = fso.OpenTextFile(f).ReadAll
  6.         fso.OpenTextFile(f & ".txt", 2, true).Write GetUrl(txt)
  7.     End If
  8. Next
  9. MsgBox "OK"

  10. Function GetUrl(str)
  11.     Set re = New RegExp
  12.     re.Pattern = "http://[^""]+(?="")"
  13.     re.Global = True
  14.     re.IgnoreCase = True
  15.     For Each m in re.Execute(str)
  16.         If InStr(s, m & vbCrLf) = 0 Then s = s & m & vbCrLf
  17.     Next
  18.     GetUrl = s
  19. End Function
复制代码
BAT
  1. //&cls&(type *.txt|cscript -nologo -e:jscript "%~0") 2>nul>>"批量提取%~nx0.txt"&pause&exit
  2. WSH.echo(WScript.StdIn.ReadAll().match(/http:\/\/[^"]+(?=")/g).join('\r\n'))
复制代码

评分

参与人数 1技术 +1 收起 理由
netdzb + 1 谢谢助力

查看全部评分

发表于 2021-5-22 21:25:11 | 显示全部楼层
  1. sed -r "s#.*("http[[:alnum:]:/.?%%]*").*#\1#" fea.txt
  2. sed -r "s#.*("http[^^"]*").*#\1#" fea.txt
  3. ::for中:
  4. for /f "delims=" %%h in ('sed -r "s#.*("http[[:alnum:]:/.?%%]*").*#\1#" fea.txt')do (
  5.         echo %%h
  6. )
  7. for /f "delims=" %%h in ('sed -r "s#.*("http[^^^^"]*).*#\1#" fea.txt')do (
  8.         echo %%h"
  9. )
复制代码
  1. sed -r "s#"#\n#g^" fea.txt|sed -n "/^http/p"
  2. sed -r "s#"#\n#g^" fea.txt|sed "/^http/!d"
  3. sed -r "s#"#\n#g^" fea.txt|findstr /i "^https:// ^http://"
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 17:23 , Processed in 0.033307 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表