找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 24980|回复: 4

[文本处理] [已解决]用findstr 提取不到符合条件的内容

[复制链接]
发表于 2018-6-12 22:00:44 | 显示全部楼层 |阅读模式
如题,用findstr /i ".*的.*了.*的.*了.*" "test1.ini">>test2.ini取文件内容,一直好用,但是今天却发现了例外,就是不行。百思不得姐。希望能找到原因并解决。

评分

参与人数 1PB +2 收起 理由
Batcher + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2018-6-13 08:47:42 | 显示全部楼层
本帖最后由 WHY 于 2018-6-13 10:01 编辑

第二行的两个 <br><br> 之间有一个 回车符(\r、0x0D)
win系统文本里回车换行(\r\n)一般都是成对出现,一般不会出现单独的 \r

建议获取网页内容不要直接用 findstr,1.超长行会挂;2.文本编码 utf8 会挂。
可以考虑 第三方工具,也可以考虑 PowerShell、vbs 等。
举例:
  1. PowerShell -c "$s=(type test1.ini) -join "`r`n";[regex]::Matches($s,'<br>(?:(?!<br>).)+<br>')|%%{$_.Value}"
复制代码
一定要用 findstr,先用 sed 去掉单独的 \r
  1. sed -r "s/<br>\x0D<br>/<br><br>/g" test1.ini > test11.ini
复制代码

评分

参与人数 1技术 +1 收起 理由
hlzj88 + 1 感谢感谢

查看全部评分

 楼主| 发表于 2018-6-13 19:13:56 | 显示全部楼层
回复 2# WHY
谢谢WHY。
我不会查看它里面还有这样的代码,用word也看不出来。不知您是用什么工具看的。
发表于 2018-6-13 19:46:32 | 显示全部楼层
回复 3# hlzj88


    UltraEdit,切换到 16进制编辑器
 楼主| 发表于 2018-6-14 06:07:26 | 显示全部楼层
谢谢,这就去下载。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-21 03:28 , Processed in 0.031295 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表