Board logo

标题: [文本处理] [已解决]用findstr 提取不到符合条件的内容 [打印本页]

作者: hlzj88    时间: 2018-6-12 22:00     标题: [已解决]用findstr 提取不到符合条件的内容

本帖最后由 hlzj88 于 2018-6-13 19:25 编辑

如题,用findstr /i ".*的.*了.*的.*了.*" "test1.ini">>test2.ini取文件内容,一直好用,但是今天却发现了例外,就是不行。百思不得姐。希望能找到原因并解决。[attach]11268[/attach]
作者: WHY    时间: 2018-6-13 08:47

本帖最后由 WHY 于 2018-6-13 10:01 编辑

第二行的两个 <br><br> 之间有一个 回车符(\r、0x0D)
win系统文本里回车换行(\r\n)一般都是成对出现,一般不会出现单独的 \r

建议获取网页内容不要直接用 findstr,1.超长行会挂;2.文本编码 utf8 会挂。
可以考虑 第三方工具,也可以考虑 PowerShell、vbs 等。
举例:
  1. PowerShell -c "$s=(type test1.ini) -join \"`r`n\";[regex]::Matches($s,'<br>(?:(?!<br>).)+<br>')|%%{$_.Value}"
复制代码
一定要用 findstr,先用 sed 去掉单独的 \r
  1. sed -r "s/<br>\x0D<br>/<br><br>/g" test1.ini > test11.ini
复制代码

作者: hlzj88    时间: 2018-6-13 19:13

回复 2# WHY
谢谢WHY。
我不会查看它里面还有这样的代码,用word也看不出来。不知您是用什么工具看的。
作者: WHY    时间: 2018-6-13 19:46

回复 3# hlzj88


    UltraEdit,切换到 16进制编辑器
作者: hlzj88    时间: 2018-6-14 06:07

谢谢,这就去下载。




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2