[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 【已解决】求助批处理提取特定文本并分列

本帖最后由 jave000 于 2021-9-10 10:12 编辑

同类搜索简述:
按创建和修改时间将一批文本文件,从一个文件夹批量复制到另一个文件夹,并且两个文件夹的路径中间都有一个变量,需要手动输入,以及其中一个路径涉及到桌面,但为了可以分享给同事使用,识别任意电脑名下的桌面路径。
同时对所有文本的内容,筛出以序号为行首的内容,并对其进行分列,再转换到csv文件,同时增加一列生成其文本文件名。
同时自动打开excel。
复杂度:多行文本在分列后,同一列的部分内容要归入同一个单元格。其中部分列的内容只有一行。
感谢楼下诸位

@powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & exit /b
set-location $PSScriptRoot
$jave = read-host "roject Model Folder"
$CXMPV = [Environment]::GetFolderPath("Desktop")
$order = "2,3,4,5,6,1"
$sour = "\\btssvr9\pds1\$jave\3d\\iso_dgn\MOC_2021\"
$dest = "$CXMPV\Print\"
do
{
    $minute = read-host "Minutes of Minutes"
    $minute = $minute.trim()
}
while ($minute -match "\D")
Get-ChildItem -Path $sour -File |
    Where-Object { ($_.CreationTime -gt (get-date).AddMinutes(-$minute)) -or ($_.LastWriteTime -gt (get-date).AddMinutes(-$minute)) } |
    foreach-object {
        write-host $_.fullname
        copy-item $_.fullname -Destination $dest
    }
Invoke-Item $sour
Remove-Item $dest* -Include z-mto.csv
if (-not ([string]::IsNullOrEmpty($args[0])))
{
    $sour = $args[0]
}
function zget-data()
{
    [System.Collections.ArrayList] $sirenas = @()
    $rem = "^\s{3}\d{1}|^\s{2}\d{2}|^\s{11,12}\S.+"
    $renfs = "(\w{4})(\w{1,4})?(\w{1,4})?(\w{1,5})?(.*)"
    $renfd = "`$1-`$2-`$3-`$4-`$5"
    $res = "`n(.{4})(.{46})(.{13})(.{15})(.+)((?:`n\s{11,12}.+)*)"
    #$res = "`n\s{2,3}(\d{1,2})\s{4,}(\S.+?\S)\s{2,}(\d+(?:X\d+)?)\s{2,}(\S+(?:\s\S+)*)\s{2,}(\d+(?:[.]\d+)?(?:\sM)?)((?:`n\s{11,12}.+)*)"
    $red = "`t`$1`t`$2`$6`t`$3`t`$4`t`$5::"
    Get-ChildItem -path $sour "*.prt" | foreach-object {
        write-host "  "$_.basename
        $nf = $_.basename.ToUpper() -replace $renfs,$renfd -replace "-+$","";
        $a = "`n" + ((get-content -Encoding utf8 -path $_.fullname ) -match $rem -join "`n") ;
        if ( $a.length -gt 1 )
        {
            $a = $a -replace $res,$red -replace "[ `n]+"," " -replace " *`t *","`t"
            $a = $a -replace ":","" -replace "::","`n" -replace "(?m)\sm$","" -replace "(?m)^(?=`t)",$nf
            $sirenas.add($a) | out-null
        }
    }
    $sirenas = $sirenas -split "`n"
    $reos = "^([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)$"
    $reod = $order -replace ",","`t" -replace "(?=\d)","`$"
    $sirenas = $sirenas -replace $reos, $reod
    return $sirenas
}
function zout-csv()
{
    $reos = "^([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)$"
    $reod = '"$1","$2","$3","$4","$5","$6"'
    $sirenas -replace $reos,$reod | out-file -encoding utf8 ($dest + "z-mto.csv")
}
function zout-excel()
{
    try
    {
        $Excel = New-Object -ComObject Excel.Application  -ErrorAction Stop
    }
    catch
    {
        return
    }
    $Excel.Visible = $true
    $Workbook = $Excel.Workbooks.Add()
    $Sheet = $Workbook.Worksheets.Item(1)
    $v = [string[,]]::new($sirenas.count,1)
    for ( $i =0 ; $i -lt $sirenas.count ; $i++ )
    {
        $v[$i,0] = $sirenas[$i]
    }
    $rng = "A1:A" +  $sirenas.count
    $Sheet.range($rng).value2 = $v
    $colA = $sheet.range("A1").EntireColumn
    $colrange = $sheet.range("A1")
    $colA.texttocolumns($colrange,1,1,$false,$true,$false,$false,$false) | out-null
    $sheet.columns.autofit() | out-null
    $Workbook.SaveAs(($PSScriptRoot + "\" + $dest))
    $excel.Quit()
    [system.GC]::Collect()
}
[System.Collections.ArrayList] $sirenas = @()
$sirenas = zget-data
zout-csv
zout-excel

回复 2# jave000


    请上传到网盘试试
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

上传网盘内容最好有:
1.源文件
2.每个步骤中,文件处理后的示范样式。

TOP

本帖最后由 newswan 于 2021-6-23 14:39 编辑

基本看明白了,用excel做比较好

处理1个文件
powershell
  1. $file = "1.txt"
  2. $fc = get-content $file
  3. $i = 0
  4. while ($i -le $fc.count)
  5. {
  6.     if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
  7.     {
  8.         $a = $fc[$i] -split "\s\s\s*"
  9.         $a[5] = $a[5] -replace "\sm",""
  10.         while ($fc[$i+1] -match "^\s{11}\S")
  11.         {
  12.             $a[2] = $a[2] + " " + $fc[$i+1].trim()
  13.             $i += 1
  14.         }
  15.         if (-not ($fc[$i+1] -match "^\s{11}\S"))
  16.         {
  17.             $a
  18.         }
  19.     }
  20.     $i += 1
  21. }
复制代码
1

评分人数

TOP

本帖最后由 newswan 于 2021-6-23 13:46 编辑

4 楼样本 提取结果
  1. 1
  2. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN200 - 219.1 X 4
  3. 200
  4. I512912
  5. 2.1
  6. 2
  7. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN150 - 168.3 X 3.6
  8. 150
  9. I512911
  10. 1.6
  11. 3
  12. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN50 - 60.3 X 2.9
  13. 50
  14. I512906
  15. 0.3
  16. 4
  17. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN25 - 33.7 X 2.6
  18. 25
  19. I512903
  20. 0.3
  21. 5
  22. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN20 - 26.9 X 2
  23. 20
  24. I512902
  25. 0.2
  26. 6
  27. CONCENTRIC REDUCER, SMLS, GB/T 12459, R(C), ASTM A312 TP316L, WELD PREP. ACC. TO CS 416, ENDPREP. ACC. TO CS 416, CS 1000-28, DN200 X 150 - 219.1 X 4/168.3 X 3.6
  28. 200X150
  29. I512654
  30. 1
  31. 7
  32. ELBOW 90 C, SMLS, GB/T 12459, 90E(L), ASTM A312 TP316L, WELD PREP. ACC. TO CS 416, CS 1000-28, DN200 - 219.1 X 4
  33. 200
  34. I512504
  35. 1
  36. 8
  37. ELBOW 90 C, SMLS, GB/T 12459, 90E(L), ASTM A312 TP316L, WELD PREP. ACC. TO CS 416, CS 1000-28, DN50 - 60.3 X 2.9
  38. 50
  39. I512498
  40. 1
  41. 9
  42. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN10, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN200 - 219.1 X 4
  43. 200
  44. I512820
  45. 1
  46. 10
  47. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN16, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN150 - 168.3 X 3.6
  48. 150
  49. I512819
  50. 1
  51. 11
  52. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN16, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN50 - 60.3 X 2.9
  53. 50
  54. I512814
  55. 1
  56. 12
  57. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN40, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN25 - 33.7 X 2.6
  58. 25
  59. I512799
  60. 1
  61. 13
  62. BLIND FLANGE, EN 1092-1, TYPE 05, SA 182 F316L, PN40, CONTACT FACE- FORM A EN 1092-1, CS 1000-37, DN25
  63. 25
  64. I512946
  65. 1
  66. 14
  67. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN40, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN20 - 26.9 X 2
  68. 20
  69. I512798
  70. 1
  71. 15
  72. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN16,  WN 1000-841 DN 200 THICKNESS 1.6
  73. 200
  74. I224625
  75. 1
  76. 16
  77. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN16,  WN 1000-841 DN 150 THICKNESS 1.6
  78. 150
  79. I224624
  80. 2
  81. 17
  82. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN40,  WN 1000-841 DN 50 THICKNESS 1.6
  83. 50
  84. I224645
  85. 1
  86. 18
  87. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN40,  WN 1000-841 DN 25 THICKNESS 1.6
  88. 25
  89. I224638
  90. 2
  91. 19
  92. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN40,  WN 1000-841 DN 20 THICKNESS 1.6
  93. 20
  94. I224636
  95. 1
  96. 20
  97. SCREWED CONNECTION, DIN EN ISO 4017/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M20 X 70
  98. 20
  99. I91453
  100. 16
  101. 21
  102. SCREWED CONNECTION, DIN EN ISO 4017/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M20 X 75
  103. 20
  104. I91454
  105. 8
  106. 22
  107. SCREWED CONNECTION, DIN EN ISO 4014/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M16 X 65
  108. 16
  109. I91413
  110. 4
  111. 23
  112. SCREWED CONNECTION, DIN EN ISO 4014/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M12 X 50
  113. 12
  114. I91371
  115. 4
  116. 24
  117. SCREWED CONNECTION, DIN EN ISO 4014/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M12 X 55
  118. 12
  119. I91372
  120. 8
  121. 25
  122. ERROR READING SPECIALTY MATERIAL DESCRIPTION LIBRARY
  123. 150
  124. V710RE11F3121
  125. 1
  126. 26
  127. SLIDE SHOE SIDE MOVABLE COMPANY STD WN8205-2 TYPE 5 (INS.-THK. 120 MM), UST37-2 WITH COATING COMPANY STANDARD WN 8110, SHOE-LENGTH 300 MM, CLAMPED
  128. 200
  129. S0W-200
  130. 1
  131. 1
  132. PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN250 - 273 X 4
  133. 250
  134. I512913
  135. 0.5
  136. 2
  137. CONCENTRIC REDUCER, SMLS, GB/T 12459, R(C), ASTM A312 TP316L, WELD PREP. ACC. TO CS 416, ENDPREP. ACC. TO CS 416, CS 1000-28, DN250 X 200 - 273 X 4/219.1 X 4
  138. 250X200
  139. I512658
  140. 1
  141. 3
  142. ELBOW 90 C, SMLS, GB/T 12459, 90E(L), ASTM A312 TP316L, WELD PREP. ACC. TO CS 416, CS 1000-28, DN250 - 273 X 4
  143. 250
  144. I512505
  145. 1
  146. 4
  147. BLIND DISC, CS 473 PN 10 SERIES 2, SA 240 316L, FLANGE MOUNTING DIMENSION, PN10, CLAMPED PART CONTACT FACE FORM A DIN EN 1092-1, CS 1000-33, DN200
  148. 200
  149. I512980
  150. 1
  151. 5
  152. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN10, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN250 - 273 X 4
  153. 250
  154. I512821
  155. 1
  156. 6
  157. WELDNECK FLANGE, EN 1092-1, TYPE 11, SA 182 F316L, PN10, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, ENDPREP. ACC. TO CS 416, CS 1000-34, DN200 - 219.1 X 4
  158. 200
  159. I512820
  160. 2
  161. 7
  162. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN10,  WN 1000-841 DN 250 THICKNESS 1.6
  163. 250
  164. I224614
  165. 1
  166. 8
  167. GASKET, DIN EN 1514-1-IBC, NQ, 1.4401/GRAPHITE/1.4571, PN16,  WN 1000-841 DN 200 THICKNESS 1.6
  168. 200
  169. I224625
  170. 3
  171. 9
  172. SCREWED CONNECTION, DIN EN ISO 4017/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M20 X 75
  173. 20
  174. I91454
  175. 8
  176. 10
  177. SCREWED CONNECTION, DIN EN ISO 4014/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M20 X 85
  178. 20
  179. I91456
  180. 8
  181. 11
  182. SCREWED CONNECTION, DIN EN ISO 4014/4032, A2-70, CS 1000-16, NUT (H=0.9XD) M20 X 80
  183. 20
  184. I91455
  185. 12
  186. 12
  187. BELLOWS SEAL VALVE, HANDWHEEL, CLIMBING, V2436W, 1.4581, 1.4571, 1.4408, 1.4404, PN10, FLANGE CONTACT FACE TO FORM B1 DIN EN 1092-1, WN 8480, DN 200
  188. 200
  189. I372364
  190. 1
复制代码

TOP

回复 8# newswan


十分感谢,我试了一下,基本成功运行(元件描述中出现了很多string Trim(Params char[] trimChars), string Trim() string Trim(Params char[] trimChars), string Trim())。
只是结果我用不起来,希望批处理能完成提取NO        DESCRIPTION AND SPECIFICATION        (MM)          ARTICLE-NO        QTY这五列的正文内容,将其分别放入对应的单元格,其中DESCRIPTION AND SPECIFICATION这一列需要将原来的各行合并起来(我看你的代码已经实现了,本来以为做不到所以我一开始就没提,惊为天人),并且依然保持按列排序(必须排成五列)。其他内容我一概不要。
好像bat是不能保存excel文件的吧?我也不知道txt怎么实现,如果结果不能直接变成excel的单元格,我也希望将结果手动复制过去后能自动分布到excel的五列里。
我后面还要继续将结果合并ARTICLE-NO列的重复项,并将QTY列的“ M”删除,以及将重复项的数据求和。(这是最终结果,但上一步未分重复项的结果我也是要的,便于后期校核数据是否遗漏。)
另外powershell我很陌生,刚才也是摸索着用的,没想到复制代码过去,只是右击,就自动粘贴了,它生成结果后没有保存成文件,是代码里没写这一段还是不支持?好像使用起来没有bat方便,bat我只要放到相应文件夹双击就直接出来结果了,适合分享给其他同事。

TOP

回复 5# Batcher


    管理员好,我是在公司发的,公司屏蔽了所有网盘的网址,我实在上传不了,这里的附件我也上传不了,无论是zip还是txt,都是失败
我试试把文本发到邮箱,晚上从自己电脑发过来。
谢谢

TOP

本帖最后由 newswan 于 2021-6-23 14:45 编辑

回复 10# jave000


    改一下啊,trim 必须带括号  trim()

选其中一句,插入为第一行,保存为bat
  1. @powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & exit /b
  2. @powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & pause & exit
  3. #&cls&@Powershell "& {[ScriptBlock]::Create("'#' + (gc '%~f0' -raw)").Invoke()}" & pause & exit
  4. #&cls&@Powershell "& {[ScriptBlock]::Create("'#' + ([io.file]::ReadAllText('%~f0',[text.encoding]::Default))").Invoke()}" & pause & exit
  5. #&cls&@powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & pause&exit
复制代码

TOP

回复 9# idwma


    谢谢,运行结果很好,就是特别的慢,每一行数据跳出一个闪烁窗口,一秒大约生成两三行数据,数据都在cmd里,然后手动复制到excel对么?但是我任意键就自动关闭了……

TOP

本帖最后由 newswan 于 2021-6-23 14:51 编辑
  1. $fileSour = "1.txt"
  2. $fileDest = "11.txt"
  3. $fc = get-content $fileSour
  4. [System.Collections.ArrayList] $da = @()
  5. $i = 0
  6. while ($i -le $fc.count)
  7. {
  8.     if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
  9.     {
  10.         $a = $fc[$i] -split "\s\s\s*"
  11.         $a[5] = $a[5] -replace "\sm",""
  12.         while ($fc[$i+1] -match "^\s{11}\S")
  13.         {
  14.             $a[2] = $a[2] + " " + $fc[$i+1].trim()
  15.             $i += 1
  16.         }
  17.         if (-not ($fc[$i+1] -match "^\s{11}\S"))
  18.         {
  19.             $da.add($a -join "`t") | out-null
  20.         }
  21.     }
  22.     $i += 1
  23. }
  24. $da | out-file $fileDest
复制代码

TOP

处理目录下多个文件
  1. $pathSour = "a"
  2. $fileDest = "11.txt"
  3. [System.Collections.ArrayList] $da = @()
  4. get-childitem -path $pathSour *.rpt | foreach-object {
  5.     $fc = get-content $_
  6.     $i = 0
  7.     while ($i -le $fc.count)
  8.     {
  9.         if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
  10.         {
  11.             $a = $fc[$i] -split "\s\s\s*"
  12.             $a[5] = $a[5] -replace "\sm",""
  13.             while ($fc[$i+1] -match "^\s{11}\S")
  14.             {
  15.                 $a[2] = $a[2] + " " + $fc[$i+1].trim()
  16.                 $i += 1
  17.             }
  18.             if (-not ($fc[$i+1] -match "^\s{11}\S"))
  19.             {
  20.                 $da.add($a -join "`t") | out-null
  21.             }
  22.         }
  23.         $i += 1
  24.     }
  25. }
  26. $da | out-file $fileDest
复制代码

TOP

文件是 prt 还是 rpt ?

TOP

回复 14# newswan


    复制到excel已经是自动分列了,感谢你给我涨了知识。
出现了两处识别错误:

第一个是蝶阀,HAND LEVER, K2560C出现的位置不对,而且中间多了个空格,导致复制到excel后,后面两列错位,猜测是因为BUTTERFLY  VALVE中间有两个空格,这是我们数据库管理员输入描述有误,不知道是否能解决这种偶尔出现多个空格的BUG,毕竟真正用来分列的空格起码超过五个,能否设置小于三个的不算。
  17    BUTTERFLY  VALVE, HAND LEVER, K2560C,     100          IC02606            1
           NEOTECHA TYPE -TRIM N07,
           EN-GJS-400-18U-LT/PTFE, PN10, SCREW
           IN HOLE, CONTACT FACE FORM B1 DIN EN
           1092-1, INTEGR.GASKET, WN 8480, DN
           100

        17        BUTTERFLY NEOTECHA TYPE -TRIM N07, EN-GJS-400-18U-LT/PTFE, PN10, SCREW IN HOLE, CONTACT FACE FORM B1 DIN EN 1092-1, INTEGR.GASKET, WN 8480, DN 100        VALVE, HAND LEVER, K2560C,        100        IC02606        1


第二个是弯管,同样的BUG,两个空格导致识别错误。关于数量这里的“ M”我也不清楚能不能删,会不会干扰到描述里万一也有这样的字符,如果不行,我手动处理。
   3    PIPE BEND,  RADIUS 2,5 X D, WN 9900-1,    80           I302777           0.4 M
           H2/1.4404, SAWN END, - DN 80 - 88.9 X
           2.3

        3        PIPE BEND, H2/1.4404, SAWN END, - DN 80 - 88.9 X 2.3        RADIUS 2,5 X D, WN 9900-1,        80        I302777        0.4 M

TOP

本帖最后由 newswan 于 2021-6-23 15:25 编辑

回复 19# jave000

    改这一句,4个空格分列
  1. $a = $fc[$i].trim() -split "\s{4,}*"
复制代码

TOP

本帖最后由 newswan 于 2021-6-23 15:39 编辑

如果 保留m ,删除这一句
  1. $a[-1] = $a[-1] -replace "\sm",""
复制代码

TOP

返回列表