找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
楼主: pwq

[文本处理] 求对文本文件进行整理的批处理

[复制链接]
发表于 2021-3-8 22:17:09 | 显示全部楼层
回复 15# pwq


    pdf转的txt的编码应该是utf-8,所以删不掉;要想无论任何文本都能删掉数字,得需要先检测文本编码然后再删除。
 楼主| 发表于 2021-3-8 22:17:27 | 显示全部楼层
谢谢管理员先生给我的指导,我都收藏下来了。谢谢!
 楼主| 发表于 2021-3-8 22:19:17 | 显示全部楼层
谢谢各位,我再试试。
 楼主| 发表于 2021-3-8 22:40:49 | 显示全部楼层
我刚才将由PDF转换成txt用utf-8编码保存后再用大师们的批处理删除数字行还是不行,还充斥了这样的符号:�?,好了,到此为止,明天再研究吧。谢谢各位。
发表于 2021-3-9 06:21:24 | 显示全部楼层
本帖最后由 qixiaobin0715 于 2021-3-9 12:26 编辑

除了编码问题,可能还存在纯数字行末尾有不可见的空白字符。
  1. 将findstr /bev "[0-9][0-9]*"修改为findstr /r /bev /c:"[0-9][0-9]*[         ]*"试试
复制代码
发表于 2021-3-9 10:55:45 | 显示全部楼层
本帖最后由 qixiaobin0715 于 2021-3-9 12:27 编辑

如果使用UTF-8编码,可将文本文件及批处理文件均另存为UTF-8 无签名编码,运行批处理:
  1. @echo off
  2. chcp 65001
  3. for /f "delims=" %%a in ('findstr /r /bev /c:"[0-9][0-9]*[         ]*" a.txt') do (
  4. echo,%%a
  5. )
  6. pause
复制代码
 楼主| 发表于 2021-3-9 17:03:12 | 显示全部楼层
回复少尉大师,用您的方法试了,都失败了。用您上次给的批处理能删除文字版PDF转换的TXT中的页数字。删除不了扫描版PDF转换的txt中的页数字。好了,这个问题到此吧。我也是兴趣玩玩而已,谢谢大师们。
发表于 2021-3-9 17:16:45 | 显示全部楼层
回复 22# pwq


提个小小的建议,以后遇到类似的问题,比如别人测试能成功,但是你实际执行的时候有问题。可以把你的测试用例、测试代码打包压缩传上来,以便进一步排查问题。
 楼主| 发表于 2021-3-11 12:19:13 | 显示全部楼层
回各位大师,我用鼠标光标箭头手工测试了一下页数字右边位置处,果然有个空白字符,我用鼠标将其删除,再用大师们给的批处理操作,页数字就完美的删除了,我太高兴了。现在需要一个能删除页数字右边有个空白字符的批处理,哪位大师帮我一下。谢谢大师们。
发表于 2021-3-11 12:30:28 | 显示全部楼层
  1. type a.txt | findstr /r /v /c:"^[0-9][0-9]*[         ]*$">b.txt
复制代码
 楼主| 发表于 2021-3-11 14:15:05 | 显示全部楼层
回复少尉大师,您最新给我的删除页数字的批处理我已下载并试用,能完美将页数字删除。谢谢您。我还有个想法,因为这些文本文件是由多个PDF文件转换来的。页数字右边究竟有多少个空白字符也吃不准,您这次的批处理是不是对页数字右边任意个空白字符都考虑进了。谢谢您。
发表于 2021-3-11 14:51:27 | 显示全部楼层
是的。[         ]*$表示行尾有0到任意多个空白字符构成。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 13:54 , Processed in 0.019921 second(s), 7 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表