[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决]用findstr 提取不到符合条件的内容

如题,用findstr /i ".*的.*了.*的.*了.*" "test1.ini">>test2.ini取文件内容,一直好用,但是今天却发现了例外,就是不行。百思不得姐。希望能找到原因并解决。
1

评分人数

    • Batcher: 感谢给帖子标题标注[已解决]字样PB + 2
目的,学习批处理

谢谢,这就去下载。
目的,学习批处理

TOP

回复 3# hlzj88


    UltraEdit,切换到 16进制编辑器

TOP

回复 2# WHY
谢谢WHY。
我不会查看它里面还有这样的代码,用word也看不出来。不知您是用什么工具看的。
目的,学习批处理

TOP

本帖最后由 WHY 于 2018-6-13 10:01 编辑

第二行的两个 <br><br> 之间有一个 回车符(\r、0x0D)
win系统文本里回车换行(\r\n)一般都是成对出现,一般不会出现单独的 \r

建议获取网页内容不要直接用 findstr,1.超长行会挂;2.文本编码 utf8 会挂。
可以考虑 第三方工具,也可以考虑 PowerShell、vbs 等。
举例:
  1. PowerShell -c "$s=(type test1.ini) -join \"`r`n\";[regex]::Matches($s,'<br>(?:(?!<br>).)+<br>')|%%{$_.Value}"
复制代码
一定要用 findstr,先用 sed 去掉单独的 \r
  1. sed -r "s/<br>\x0D<br>/<br><br>/g" test1.ini > test11.ini
复制代码
1

评分人数

TOP

返回列表