找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 69513|回复: 18

[文本处理] [已解决] 请教批处理格式化文本并对关键字进行统计

[复制链接]
发表于 2012-6-1 07:32:59 | 显示全部楼层 |阅读模式
本帖最后由 ouch1983 于 2012-6-3 15:34 编辑

输入文本样式:
1/810    CNABS
AP      - CN2008800 20080418
2/810    CNABS
AP      - CN2007800 20071108
3/810    DWPI
PN      - US2010149       A1      20110617    DW201042
4/810    DWPI
PN      - US2010284       A1      20061111    DW201077
5/810    CNABS
AP      - CN2010205 20100916
......
810/810 CNABS
AP      - CN2010111 20100888

要处理的文本有810条,每条有2行组成。AP是一种类型,ID以CN+数字组成,后面标红的部分是年月日。想通过批处理的方式,提取出标红的年月日这一列中的年份,并将所有同一年份的数量加起来,放在年份的后面,需要区分是PN类型的还是AP类型的,将结果输出到另一个文本或表格中。例如:日期是2007年的条目是“AP      - CN2007800 20071108”,相应输出的2007行和AP列处加1。

输出样式:
         PN         AP
2007      0           1
......
2010      0           1
2011      1           0
......
请教论坛上的大牛们如何做,多谢多谢。

评分

参与人数 1PB +2 收起 理由
Batcher + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2012-6-1 09:16:18 | 显示全部楼层
完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式2010这类怎么来的 PN AP 是什么值
发表于 2012-6-1 09:49:10 | 显示全部楼层
本帖最后由 formyth 于 2012-6-1 09:50 编辑

其实,象这类问题,可能用正则表达式处理更加方便些,用批处理,感觉反而麻烦。不过统计数字,可能困难些
 楼主| 发表于 2012-6-1 13:30:12 | 显示全部楼层
完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式 ...
yangfengoo 发表于 2012-6-1 09:16


20071108其实就是日期,比如20081111。输出是我希望将输入按这个样式输出到另一个文本。
 楼主| 发表于 2012-6-1 13:35:30 | 显示全部楼层
请教如何对这个问题用正则? 用什么语言实现?
发表于 2012-6-1 15:52:18 | 显示全部楼层
回复 5# ouch1983
鄙人看得也是一头雾水啊,楼主可以上传实例文本,供大家观察规律,最好是修改顶楼信息,词不达意啊。
批处理和正则表达式并不是完全无关的东西,大家经常用的findstr就支持部分正则表达式,windows平台下的sed和gawk等也可以在批处理中调用啊。
 楼主| 发表于 2012-6-1 18:58:13 | 显示全部楼层
不好意思没有说清楚,我修改了描述,请达人们指教。
发表于 2012-6-1 19:52:52 | 显示全部楼层
本帖最后由 weichenxiehou 于 2012-6-1 20:00 编辑

  1. @echo off&setlocal enabledelayedexpansion
  2. set "tab=        "
  3. for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
  4. for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
  5. for /f "tokens=1,4,5" %%a in ('findstr /i "^ap ^pn" a.txt') do (
  6.   set "stra=%%a"
  7.   if /i "!stra:~,2!"=="ap" (set "strb=%%b"&set flag=ap) else (set

  8. "strb=%%c"&set flag=pn)
  9.   if !flag!==ap (
  10.     set/a "#!strb:~,4!+=1"
  11.     if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
  12.   ) else (
  13.     set/a $!strb:~,4!+=1
  14.     if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
  15.   )
  16. )
  17. echo,%tab%PN%tab%AP>result.txt
  18. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  19.   echo,%%a%tab%!$%%a!%tab%%%b
  20. )>>result.txt
  21. start result.txt
复制代码
发表于 2012-6-1 19:53:45 | 显示全部楼层
本帖最后由 weichenxiehou 于 2012-6-1 19:55 编辑

论坛这个问题还是在啊,点了一次“发表回复”没反应,于是再点一次,刷新后发现回了两次。。
 楼主| 发表于 2012-6-1 22:30:36 | 显示全部楼层
多谢weichenxiehou。

用附件1.txt作输入文本试了下代码,由于里面都是AP的条目,所以运行正常;
在附件1.txt的最后增加了几条PN的条目生成了附件2.txt,用作输入文本,PN的统计有问题而且导致AP条目的统计也产生了问题。
发表于 2012-6-1 22:49:38 | 显示全部楼层
  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "tokens=1,4,5" %%a in ('findstr /ib "ap pn" a.txt') do (
  3.   if /i "%%a"=="AP" (
  4.     set str=%%b&set str=!str:~,4!
  5.     set/a #!str!+=1
  6.     if "!$%str%!"=="" set/a $!str!+=0
  7.   ) else (
  8.     set str=%%c&set str=!str:~,4!
  9.     set/a $!str:~,4!+=1
  10.     if "!#%str%!"=="" set/a #!str!+=0
  11.   )
  12. )
  13. (echo       PN    AP
  14. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  15.   echo %%a   !$%%a!    %%b
  16. ))>result.txt
复制代码
发表于 2012-6-1 23:15:18 | 显示全部楼层
回复 10# ouch1983
如果你能看懂代码,就会发现为什么了,因为你在末尾加的PN部分内容规律不统一,代码的意思是PN的日期应该在第5列,AP的日期应该在第四列。
 楼主| 发表于 2012-6-1 23:24:40 | 显示全部楼层
恩,对,就是由于有这种不规律在里面,包括有的ID+数字前没有-,所以才觉得不知道用批处理怎么解决。刚了解了下正则表达式和Python,发现用那个可能在这个问题上会简单些吧。
 楼主| 发表于 2012-6-2 08:22:16 | 显示全部楼层
回复 11# apang

谢谢apang,年份数量统计的还是不对。应该不是weichenxiehou说的日期在第4列还是第5列的问题。
发表于 2012-6-2 08:53:54 | 显示全部楼层
回复 14# ouch1983

代码是以行首标志AP或PN为进行判断的,你给的2.txt文本最后几行行首没有这个标志,所以统计不准。你告诉我怎么判断最后几行是AP还是PN?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-19 06:13 , Processed in 0.019505 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表