[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 【已解决】求助批处理提取特定文本并分列

本帖最后由 jave000 于 2021-9-10 10:12 编辑

同类搜索简述:
按创建和修改时间将一批文本文件,从一个文件夹批量复制到另一个文件夹,并且两个文件夹的路径中间都有一个变量,需要手动输入,以及其中一个路径涉及到桌面,但为了可以分享给同事使用,识别任意电脑名下的桌面路径。
同时对所有文本的内容,筛出以序号为行首的内容,并对其进行分列,再转换到csv文件,同时增加一列生成其文本文件名。
同时自动打开excel。
复杂度:多行文本在分列后,同一列的部分内容要归入同一个单元格。其中部分列的内容只有一行。
感谢楼下诸位

@powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & exit /b
set-location $PSScriptRoot
$jave = read-host "roject Model Folder"
$CXMPV = [Environment]::GetFolderPath("Desktop")
$order = "2,3,4,5,6,1"
$sour = "\\btssvr9\pds1\$jave\3d\\iso_dgn\MOC_2021\"
$dest = "$CXMPV\Print\"
do
{
    $minute = read-host "Minutes of Minutes"
    $minute = $minute.trim()
}
while ($minute -match "\D")
Get-ChildItem -Path $sour -File |
    Where-Object { ($_.CreationTime -gt (get-date).AddMinutes(-$minute)) -or ($_.LastWriteTime -gt (get-date).AddMinutes(-$minute)) } |
    foreach-object {
        write-host $_.fullname
        copy-item $_.fullname -Destination $dest
    }
Invoke-Item $sour
Remove-Item $dest* -Include z-mto.csv
if (-not ([string]::IsNullOrEmpty($args[0])))
{
    $sour = $args[0]
}
function zget-data()
{
    [System.Collections.ArrayList] $sirenas = @()
    $rem = "^\s{3}\d{1}|^\s{2}\d{2}|^\s{11,12}\S.+"
    $renfs = "(\w{4})(\w{1,4})?(\w{1,4})?(\w{1,5})?(.*)"
    $renfd = "`$1-`$2-`$3-`$4-`$5"
    $res = "`n(.{4})(.{46})(.{13})(.{15})(.+)((?:`n\s{11,12}.+)*)"
    #$res = "`n\s{2,3}(\d{1,2})\s{4,}(\S.+?\S)\s{2,}(\d+(?:X\d+)?)\s{2,}(\S+(?:\s\S+)*)\s{2,}(\d+(?:[.]\d+)?(?:\sM)?)((?:`n\s{11,12}.+)*)"
    $red = "`t`$1`t`$2`$6`t`$3`t`$4`t`$5::"
    Get-ChildItem -path $sour "*.prt" | foreach-object {
        write-host "  "$_.basename
        $nf = $_.basename.ToUpper() -replace $renfs,$renfd -replace "-+$","";
        $a = "`n" + ((get-content -Encoding utf8 -path $_.fullname ) -match $rem -join "`n") ;
        if ( $a.length -gt 1 )
        {
            $a = $a -replace $res,$red -replace "[ `n]+"," " -replace " *`t *","`t"
            $a = $a -replace ":","" -replace "::","`n" -replace "(?m)\sm$","" -replace "(?m)^(?=`t)",$nf
            $sirenas.add($a) | out-null
        }
    }
    $sirenas = $sirenas -split "`n"
    $reos = "^([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)$"
    $reod = $order -replace ",","`t" -replace "(?=\d)","`$"
    $sirenas = $sirenas -replace $reos, $reod
    return $sirenas
}
function zout-csv()
{
    $reos = "^([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)`t([^`t]*)$"
    $reod = '"$1","$2","$3","$4","$5","$6"'
    $sirenas -replace $reos,$reod | out-file -encoding utf8 ($dest + "z-mto.csv")
}
function zout-excel()
{
    try
    {
        $Excel = New-Object -ComObject Excel.Application  -ErrorAction Stop
    }
    catch
    {
        return
    }
    $Excel.Visible = $true
    $Workbook = $Excel.Workbooks.Add()
    $Sheet = $Workbook.Worksheets.Item(1)
    $v = [string[,]]::new($sirenas.count,1)
    for ( $i =0 ; $i -lt $sirenas.count ; $i++ )
    {
        $v[$i,0] = $sirenas[$i]
    }
    $rng = "A1:A" +  $sirenas.count
    $Sheet.range($rng).value2 = $v
    $colA = $sheet.range("A1").EntireColumn
    $colrange = $sheet.range("A1")
    $colA.texttocolumns($colrange,1,1,$false,$true,$false,$false,$false) | out-null
    $sheet.columns.autofit() | out-null
    $Workbook.SaveAs(($PSScriptRoot + "\" + $dest))
    $excel.Quit()
    [system.GC]::Collect()
}
[System.Collections.ArrayList] $sirenas = @()
$sirenas = zget-data
zout-csv
zout-excel

回复 8# newswan


十分感谢,我试了一下,基本成功运行(元件描述中出现了很多string Trim(Params char[] trimChars), string Trim() string Trim(Params char[] trimChars), string Trim())。
只是结果我用不起来,希望批处理能完成提取NO        DESCRIPTION AND SPECIFICATION        (MM)          ARTICLE-NO        QTY这五列的正文内容,将其分别放入对应的单元格,其中DESCRIPTION AND SPECIFICATION这一列需要将原来的各行合并起来(我看你的代码已经实现了,本来以为做不到所以我一开始就没提,惊为天人),并且依然保持按列排序(必须排成五列)。其他内容我一概不要。
好像bat是不能保存excel文件的吧?我也不知道txt怎么实现,如果结果不能直接变成excel的单元格,我也希望将结果手动复制过去后能自动分布到excel的五列里。
我后面还要继续将结果合并ARTICLE-NO列的重复项,并将QTY列的“ M”删除,以及将重复项的数据求和。(这是最终结果,但上一步未分重复项的结果我也是要的,便于后期校核数据是否遗漏。)
另外powershell我很陌生,刚才也是摸索着用的,没想到复制代码过去,只是右击,就自动粘贴了,它生成结果后没有保存成文件,是代码里没写这一段还是不支持?好像使用起来没有bat方便,bat我只要放到相应文件夹双击就直接出来结果了,适合分享给其他同事。

TOP

回复 5# Batcher


    管理员好,我是在公司发的,公司屏蔽了所有网盘的网址,我实在上传不了,这里的附件我也上传不了,无论是zip还是txt,都是失败
我试试把文本发到邮箱,晚上从自己电脑发过来。
谢谢

TOP

回复 9# idwma


    谢谢,运行结果很好,就是特别的慢,每一行数据跳出一个闪烁窗口,一秒大约生成两三行数据,数据都在cmd里,然后手动复制到excel对么?但是我任意键就自动关闭了……

TOP

回复 14# newswan


    复制到excel已经是自动分列了,感谢你给我涨了知识。
出现了两处识别错误:

第一个是蝶阀,HAND LEVER, K2560C出现的位置不对,而且中间多了个空格,导致复制到excel后,后面两列错位,猜测是因为BUTTERFLY  VALVE中间有两个空格,这是我们数据库管理员输入描述有误,不知道是否能解决这种偶尔出现多个空格的BUG,毕竟真正用来分列的空格起码超过五个,能否设置小于三个的不算。
  17    BUTTERFLY  VALVE, HAND LEVER, K2560C,     100          IC02606            1
           NEOTECHA TYPE -TRIM N07,
           EN-GJS-400-18U-LT/PTFE, PN10, SCREW
           IN HOLE, CONTACT FACE FORM B1 DIN EN
           1092-1, INTEGR.GASKET, WN 8480, DN
           100

        17        BUTTERFLY NEOTECHA TYPE -TRIM N07, EN-GJS-400-18U-LT/PTFE, PN10, SCREW IN HOLE, CONTACT FACE FORM B1 DIN EN 1092-1, INTEGR.GASKET, WN 8480, DN 100        VALVE, HAND LEVER, K2560C,        100        IC02606        1


第二个是弯管,同样的BUG,两个空格导致识别错误。关于数量这里的“ M”我也不清楚能不能删,会不会干扰到描述里万一也有这样的字符,如果不行,我手动处理。
   3    PIPE BEND,  RADIUS 2,5 X D, WN 9900-1,    80           I302777           0.4 M
           H2/1.4404, SAWN END, - DN 80 - 88.9 X
           2.3

        3        PIPE BEND, H2/1.4404, SAWN END, - DN 80 - 88.9 X 2.3        RADIUS 2,5 X D, WN 9900-1,        80        I302777        0.4 M

TOP

本帖最后由 jave000 于 2021-6-24 00:27 编辑

回复 18# idwma

CMD窗口闪烁,58kb运行了一分钟,不太好用,不过结果很好
你这个代码我学习一下希望能尽快看懂,十分感谢

TOP

回复 17# newswan


    若干*.prt,多个文件的运行结果是一个空白文本文档

TOP

回复 20# newswan


    我直接把路径这一行删了,就成功运行了。
但是关于设置空格数量的,无论是刚才的单个文件,还是现在的多个文件,这两段代码,修改空格数量的代码后,运行都是空白

TOP

回复 26# newswan


    $a = $fc[$i].trim() -split "\s{4,}*"
这个代码改成2或3都不行,都是空白,我删了.trim()也是一样的结果
目前这样如果难以解决,也很实用了,我私信你了
我刚看到版规,直接得到结果应该是有偿的
不知应该怎么感谢

TOP

本帖最后由 jave000 于 2021-6-23 23:52 编辑

回复 29# WHY


    你的代码好少啊……但是确实能生成两列,好强,它还能修改成显示五列吗?

TOP

本帖最后由 jave000 于 2021-6-23 23:59 编辑

回复 32# newswan

出现了这样的连续报错,运行速度也很慢,但也出了结果,只不过结果文件特别大,200KB的若干PRT文件,生成了一个4MB多的txt文件

    无法对 Null 数组进行索引。
所在位置 行:11 字符: 13
+         if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
+             ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: ( [],RuntimeException
    + FullyQualifiedErrorId : NullArray

无法对 Null 数组进行索引。
所在位置 行:11 字符: 13
+         if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
+             ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

无法对 Null 数组进行索引。
所在位置 行:11 字符: 13
+         if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
+             ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

无法对 Null 数组进行索引。
所在位置 行:11 字符: 13
+         if ($fc[$i] -match "^\s\s\s\d\s|^\s\s\d\d\s")
+             ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

TOP

回复 33# newswan


    老大你还是早点休息吧,我受之有愧。如果两个空格很难解决,我手改也行的。

TOP

回复 32# newswan


    很感谢了,我觉得我要学习很久才能看懂你写的是什么
请问为什么一定要设置$pathSour = "."
之前的那个为什么设置成两个空格就运行失败
现在这个代码比较复杂,确实运行正常,就是很奇怪为什么生成的文件会大很多

TOP

回复 35# newswan

当总文件数量很多时,cmd窗口会出现之前发的报错信息,不过生成结果问题不大。
发现一个错误:
       1    PIPE, SMLS, HG/T 20553, ASTM A312         80           I512908          13.5 M
           TP316L, SAWN END, CS 1000-27, DN80 -
           88.9 X 3.2



        1        PIPE, SMLS, HG/T 20553, ASTM A312 TP316L, SAWN END, CS 1000-27, DN80 - 88.9 X 3.2        80        I512908          1        3.5

此处13.5被拆开了,当我把文本复制到excel时,这个1被分到了I512908那个单元格

我觉得现在的代码太复杂了,可能会出现更多的问题,要不我还是用最开始那个双空格BUG的代码吧

TOP

本帖最后由 jave000 于 2021-6-24 15:43 编辑

回复 39# idwma


@echo off
findstr /b /r /c:"^  *[0-9]........................................" *.prt > b.txt
exit

神仙代码,只是描述没有组合全,只有第一行,而且也没有自动分列,手动分列后有部分错乱,但是很神奇啊……英文句号的个数有含义么?

TOP

返回列表