[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决] 请教批处理格式化文本并对关键字进行统计

本帖最后由 ouch1983 于 2012-6-3 15:34 编辑

输入文本样式:
1/810    CNABS
AP      - CN2008800 20080418
2/810    CNABS
AP      - CN2007800 20071108
3/810    DWPI
PN      - US2010149       A1      20110617    DW201042
4/810    DWPI
PN      - US2010284       A1      20061111    DW201077
5/810    CNABS
AP      - CN2010205 20100916
......
810/810 CNABS
AP      - CN2010111 20100888

要处理的文本有810条,每条有2行组成。AP是一种类型,ID以CN+数字组成,后面标红的部分是年月日。想通过批处理的方式,提取出标红的年月日这一列中的年份,并将所有同一年份的数量加起来,放在年份的后面,需要区分是PN类型的还是AP类型的,将结果输出到另一个文本或表格中。例如:日期是2007年的条目是“AP      - CN2007800 20071108”,相应输出的2007行和AP列处加1。

输出样式:
         PN         AP
2007      0           1
......
2010      0           1
2011      1           0
......
请教论坛上的大牛们如何做,多谢多谢。
1

评分人数

    • Batcher: 感谢给帖子标题标注[已解决]字样PB + 2

完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式2010这类怎么来的 PN AP 是什么值

TOP

本帖最后由 formyth 于 2012-6-1 09:50 编辑

其实,象这类问题,可能用正则表达式处理更加方便些,用批处理,感觉反而麻烦。不过统计数字,可能困难些

TOP

完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式 ...
yangfengoo 发表于 2012-6-1 09:16


20071108其实就是日期,比如20081111。输出是我希望将输入按这个样式输出到另一个文本。

TOP

请教如何对这个问题用正则? 用什么语言实现?

TOP

回复 5# ouch1983
鄙人看得也是一头雾水啊,楼主可以上传实例文本,供大家观察规律,最好是修改顶楼信息,词不达意啊。
批处理和正则表达式并不是完全无关的东西,大家经常用的findstr就支持部分正则表达式,windows平台下的sed和gawk等也可以在批处理中调用啊。
看得多说得多,远比不上写得多。

TOP

不好意思没有说清楚,我修改了描述,请达人们指教。

TOP

本帖最后由 weichenxiehou 于 2012-6-1 20:00 编辑
  1. @echo off&setlocal enabledelayedexpansion
  2. set "tab= "
  3. for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
  4. for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
  5. for /f "tokens=1,4,5" %%a in ('findstr /i "^ap ^pn" a.txt') do (
  6.   set "stra=%%a"
  7.   if /i "!stra:~,2!"=="ap" (set "strb=%%b"&set flag=ap) else (set
  8. "strb=%%c"&set flag=pn)
  9.   if !flag!==ap (
  10.     set/a "#!strb:~,4!+=1"
  11.     if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
  12.   ) else (
  13.     set/a $!strb:~,4!+=1
  14.     if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
  15.   )
  16. )
  17. echo,%tab%PN%tab%AP>result.txt
  18. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  19.   echo,%%a%tab%!$%%a!%tab%%%b
  20. )>>result.txt
  21. start result.txt
复制代码
看得多说得多,远比不上写得多。

TOP

本帖最后由 weichenxiehou 于 2012-6-1 19:55 编辑

论坛这个问题还是在啊,点了一次“发表回复”没反应,于是再点一次,刷新后发现回了两次。。
看得多说得多,远比不上写得多。

TOP

多谢weichenxiehou。

用附件1.txt[attach]5370[/attach]作输入文本试了下代码,由于里面都是AP的条目,所以运行正常;
在附件1.txt的最后增加了几条PN的条目生成了附件2.txt[attach]5369[/attach],用作输入文本,PN的统计有问题而且导致AP条目的统计也产生了问题。

TOP

  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "tokens=1,4,5" %%a in ('findstr /ib "ap pn" a.txt') do (
  3.   if /i "%%a"=="AP" (
  4.     set str=%%b&set str=!str:~,4!
  5.     set/a #!str!+=1
  6.     if "!$%str%!"=="" set/a $!str!+=0
  7.   ) else (
  8.     set str=%%c&set str=!str:~,4!
  9.     set/a $!str:~,4!+=1
  10.     if "!#%str%!"=="" set/a #!str!+=0
  11.   )
  12. )
  13. (echo       PN    AP
  14. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  15.   echo %%a   !$%%a!    %%b
  16. ))>result.txt
复制代码

TOP

回复 10# ouch1983
如果你能看懂代码,就会发现为什么了,因为你在末尾加的PN部分内容规律不统一,代码的意思是PN的日期应该在第5列,AP的日期应该在第四列。
看得多说得多,远比不上写得多。

TOP

恩,对,就是由于有这种不规律在里面,包括有的ID+数字前没有-,所以才觉得不知道用批处理怎么解决。刚了解了下正则表达式和Python,发现用那个可能在这个问题上会简单些吧。

TOP

回复 11# apang

谢谢apang,年份数量统计的还是不对。应该不是weichenxiehou说的日期在第4列还是第5列的问题。

TOP

回复 14# ouch1983

代码是以行首标志AP或PN为进行判断的,你给的2.txt文本最后几行行首没有这个标志,所以统计不准。你告诉我怎么判断最后几行是AP还是PN?

TOP

返回列表