[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决]求助批处理怎样取多个同一关键词行的下一行

某崖的小说遇到值的读的,想提取到一文本集中阅读楼主。
多个网页下载合并后,已提取到源码内容为   发言人  下一行为发言内容。由于网友回贴,造成如下示例的内容间杂。所以还需要提取楼主的发言并其他加工。格式大致如下

<divclass="atl-info"><span>楼主:<ahref="http://www
<divclass="bbs-contentclearfix">  爷爷是传承五代人的  这行留
<divclass="atl-info"><span><strongclass="host">楼主</strong>:<ahref="http://www
<divclass="bbs-content">  床尾站着一小仙,男,中批  这行留
<divclass="atl-info"><span><strongclass="host">其他发言人</strong>
<divclass="bbs-content">  其他发言人的发言,特点长短不一,也可能引用楼主大段文字
<divclass="atl-info"><span><strongclass="host">楼主</strong>:<ahref="http://www
<divclass="bbs-content"><br>  <imgsrc="http://static.tianyaui.com/img/static/2011/imgloading.gif"title="点击图片  这行留
<divclass="atl-info"><span><strongclass="host">楼主</strong>:<ahref="http://www
<divclass="bbs-content">  那日入定,爷爷带  这行留
  1. @echo on&&setlocal enabledelayedexpansion
  2. for /f "tokens=1 delims=:" %%i in ('findstr /n "楼主" 33.txt') do (
  3.   echo 楼主标志的行号 %%i
  4.   set /a xy=%%i+1
  5.   set js=
  6. for /f "delims=" %%m in ("33.txt") do (
  7.   set /a js+=1
  8.   if !xy!==!js! echo %%m>>44.txt
  9.   echo 标准!xy!  计数!js!
  10. )
  11. )
  12. pause
复制代码
我尝试写的代码,计数!js!永远为 1,因此提不到楼主发言。所以求助,感谢给予帮助。     结贴时对上面略改
目的,学习批处理

回复 2# pd1
要2  4  8  10行,即有楼主的下一行。
目的,学习批处理

TOP

谢谢楼上的各位,是要那些行的所有内容。
目的,学习批处理

TOP

回复 11# fzp070
谢谢,因为实际情况比1楼描述的还复杂一些,保留是可以观察。如果后面我这里整体调试好了,倒是可以参考使用的。
目的,学习批处理

TOP

回复 19# hfxiang
我的电脑应该比你的还早一些。一直使用win7。试了powershell都不能运行。当然我比电脑大很多,所以学技术上很大难度。光一连串的字母,念不了也写不出。因此局限很大。只能在批处理这样简单字母上下下功夫。
目的,学习批处理

TOP

回复 12# hfxiang
谢谢,一直去调试文章了,我试了两个版本的gawk,都是空白的,没有变utf-8。win7 32位
目的,学习批处理

TOP

回复  WHY


    厉害!4个命令中,除了第一个生成空白,其它三个都有效。
fzp070 发表于 2022-10-22 20:42


同样,gawk秒好

感谢!
目的,学习批处理

TOP

我的也是,不是我常用的sed版本。
目的,学习批处理

TOP

回复 43# qixiaobin0715
速度也不慢,1M文本处理也是瞬间的事
目的,学习批处理

TOP

回复 46# WHY
的确出现了自动断行的情况,不过由于是直接提取网页源码,最后以htox32c网页转文本的方式,没有什么影响。同时,图文混合的源码,图片也自动没有了。
目的,学习批处理

TOP

返回列表