[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【解决】40元求xml信息获取

本帖最后由 lxh623 于 2020-9-12 07:42 编辑

http://www.bathome.net/thread-56119-1-1.html
上次求了一次,觉得不够用。
第一,上一次的加上一个字段——篇名。(xml名字)有时候想找字。
第二,关于悉昙字和兰札字。
  1. <char xml:id="SD-A442">
  2. <charName>CBETA CHARACTER SD-A442</charName>
  3. <charProp>
  4. <localName>Romanized form in CBETA transcription</localName>
  5. <value>ki</value>
  6. </charProp>
  7. <charProp>
  8. <localName>Character in the Siddham font</localName>
  9. <value>丁</value>
  10. </charProp>
  11. <charProp>
  12. <localName>Romanized form in Unicode transcription</localName>
  13. <value>ki</value>
  14. </charProp>
  15. <mapping cb:dec="1066050" type="PUA">U+104442</mapping>
  16. </char>
  17. <char xml:id="RJ-CAC5">
  18. <charName>CBETA CHARACTER RJ-CAC5</charName>
  19. <charProp>
  20. <localName>Romanized form in CBETA transcription</localName>
  21. <value>hri</value>
  22. </charProp>
  23. <charProp>
  24. <localName>rjchar</localName>
  25. <value>岒</value>
  26. </charProp>
  27. <charProp>
  28. <localName>Romanized form in Unicode transcription</localName>
  29. <value>hri</value>
  30. </charProp>
  31. <mapping cb:dec="1100485" type="PUA">U+10CAC5</mapping>
  32. </char>
复制代码
第一个来自于T21n1320,第二个是T21n1419。
除了篇名,字符名,还有四个值。
还想要一个值,就是正文,得到字符名称后,搜索。比如,<g ref="#RJ-CB60">&#1100640;</g>或者<g ref="#SD-A44A">&#1066058;</g>。这一串或者中间的值,都可以。
结果当然需要UTF8。而且这个字符是乱码。仍然得到,主要是以后可以替换。

谢谢!

奇怪,浏览器乱码显示的数字大概就是最后一个字段括号内的数字,但是,替换的话,可能最好提取内容。

本帖最后由 lxh623 于 2020-9-12 07:25 编辑

谢谢两位。

TOP

本帖最后由 WHY 于 2020-9-17 16:26 编辑

保存为 E:\XML\Test.ps1
运行方法:脚本用右键单击,选择 "使用 PowerShell 运行"
或者,在 cmd 命令行下,输入 PowerShell -exec bypass "&'E:\XML\Test.ps1'" 回车运行
  1. $srcDir  = 'E:\xml';              #存放xml文件的目录路径
  2. $dstFile = 'E:\xml\Result.csv';   #输出文件路径
  3. $xml = New-Object System.XML.XmlDocument;
  4. $fs  = New-Object System.IO.StreamWriter($dstFile, $false, [Text.Encoding]::UTF8);
  5. $files = dir -Literal $srcDir -Filter *.xml -Recurse | ?{$_ -is [IO.FileInfo]}
  6. $count = $files.Count;
  7. for($i=0; $i -lt $count; $i++){
  8.     $xml.load($files[$i].FullName);
  9.     $hash = @{};
  10.     forEach( $node In $xml.GetElementsByTagName('g') ){
  11.         $key = $node.ref;
  12.         if( !$hash.ContainsKey($key) ){ $hash[$key] = $node.innerText; }
  13.     }
  14.     forEach( $node In $xml.GetElementsByTagName('char') ){
  15.         $arr  = @($files[$i].BaseName, '0', '0', '0', '0', '0', '0', '0', '0');
  16.         $k = 3; $id = $node.id;
  17.         if( $id -ne $null ) { $arr[1] = $id; }
  18.         if( $node.charName -ne $null ) { $arr[2] = $node.charName; }
  19.         $k = 3;
  20.         forEach( $prop In $node.charProp ) {
  21.             $value = $prop.value;
  22.             if( $value -ne $null ) { $arr[$k++] = $value; }
  23.         }
  24.         forEach( $mapp In $node.mapping ) {
  25.             $type = $mapp.type;
  26.             if( $type -ne $null ) {
  27.                 if( $type.EndsWith('unicode') ){
  28.                     $arr[6] = $mapp.innerText;
  29.                 } elseif( $type -eq 'PUA' ){
  30.                     $arr[7] = $mapp.innerText;
  31.                 }
  32.             }
  33.         }
  34.         if( $hash.ContainsKey('#' + $id) ){ $arr[8] = $hash['#' + $id]; }
  35.         $fs.WriteLine('"' + ($arr -join  '","') + '"' );
  36.     }
  37.     if($i % 500 -eq 0 ) { $fs.Flush(); }
  38. }
  39. $fs.Flush();
  40. $fs.Dispose();
  41. echo 'Done'
  42. [console]::ReadLine();
复制代码
共9列:文件名,id,charName,value,value,value,unicode,PUA,搜索结果g
  1. $srcDir  = 'E:\xml';              #存放xml文件的目录路径
  2. $dstFile = 'E:\xml\Result.csv';   #输出文件路径
  3. $xml = New-Object System.XML.XmlDocument;
  4. $fs  = New-Object System.IO.StreamWriter($dstFile, $false, [Text.Encoding]::UTF8);
  5. $files = dir -Literal $srcDir -Filter *.xml -Recurse | ?{$_ -is [IO.FileInfo]}
  6. $count = $files.Count;
  7. for($i=0; $i -lt $count; $i++){
  8.     $xml.load($files[$i].FullName);
  9.     $mgrNS = New-Object System.XML.XmlNameSpaceManager($xml.NameTable);
  10.     $mgrNS.AddNameSpace('ns', $xml.DocumentElement.NameSpaceURI);    #xml命名空间
  11.     forEach( $node In $xml.SelectNodes('//ns:char', $mgrNS) ){
  12.         $arr = @($files[$i].BaseName, '0', '0', '0', '0', '0', '0', '0', '0');
  13.         $id  = $node.id;
  14.         if( $id -ne $null ) { $arr[1] = $id; }                        #第2列:id
  15.         if( $node.charName -ne $null ) { $arr[2] = $node.charName; }  #第3列:charName
  16.         $k = 3;
  17.         forEach( $prop In $node.charProp) {
  18.             $value = $prop.value;
  19.             if( $value -ne $null ) { $arr[$k++] = $value; }           #第4-6列:value
  20.         }
  21.         forEach( $mapp In $node.mapping ) {
  22.             $type = $mapp.type;
  23.             if( $type -ne $null ) {
  24.                 if( $type.EndsWith('unicode') ){
  25.                     $arr[6] = $mapp.innerText;          #第7列:type='unicode'对应的文字
  26.                 } elseif( $type -eq 'PUA' ){
  27.                     $arr[7] = $mapp.innerText;          #第8列:type='PUA'对应的文字
  28.                 }
  29.             }
  30.         }
  31.         $g = $xml.SelectSingleNode('//ns:g[@ref="#' + $id + '"]', $mgrNS);
  32.         $text = $g.innerText;
  33.         if( $text -ne $null ){ $arr[8] = $text; }       #第9列:节点g属性ref="#id"对应的文字
  34.         $fs.WriteLine('"' + ($arr -join  '","') + '"' );
  35.     }
  36.     if($i % 500 -eq 0 ) { $fs.Flush(); }
  37. }
  38. $fs.Flush();
  39. $fs.Dispose();
  40. echo 'Done';
  41. [console]::ReadLine();
复制代码
1

评分人数

TOP

本帖最后由 zaqmlp 于 2020-9-11 22:18 编辑

回复 3# lxh623
  1. <# :
  2. cls
  3. @echo off
  4. cd /d "%~dp0"
  5. powershell -NoProfile -ExecutionPolicy bypass "Invoke-Command -ScriptBlock ([ScriptBlock]::Create([IO.File]::ReadAllText('%~f0',[Text.Encoding]::Default))) -Args '%~dp0'"
  6. pause
  7. exit
  8. #>
  9. $path=$args[0];
  10. $outfile=$path+'#result.csv';
  11. $enc=[Text.Encoding]::UTF8;
  12. $fs=New-Object System.IO.FileStream($outfile, [System.IO.FileMode]::Create);
  13. $sw=New-Object System.IO.StreamWriter($fs, $enc);
  14. $files=@(dir -liter $path -recurse|?{('.xml' -eq $_.Extension) -and ($_ -is [System.IO.FileInfo])});
  15. for($i=0;$i -lt $files.length;$i++){
  16.   write-host $files[$i].FullName;
  17.   $text=[IO.File]::ReadAllText($files[$i].FullName, $enc);
  18.   $m1=[regex]::matches($text, '<char xml:id="([^"]*?)">([\s\S]+?)</char>');
  19.   if($m1.count -ge 1){
  20.   foreach($k in $m1){
  21.     $arr=@($files[$i].BaseName,'','','','','','','','','');
  22.    
  23.     $a=$k.groups[1].value;
  24.     $arr[1]=$a;
  25.     $b=[regex]::match($k.groups[2].value,'[^>]+(?=</charName>)');
  26.     if($b.success){$arr[2]=$b.groups[0].value;};
  27.    
  28.     $m2=[regex]::matches($k.groups[2].value, '(?<=<value>).+?(?=</value>)');
  29.     $n=3;
  30.     if($m2.count -ge 1){
  31.         foreach($v in $m2){
  32.             $arr[$n]=$v.groups[0].value;
  33.             $n++;
  34.         };
  35.     };
  36.    
  37.     $f=[regex]::match($k.groups[2].value,'<mapping type="[^"]*?unicode">([\s\S]+?)</mapping>');
  38.     if($f.success){$arr[6]=$f.groups[1].value;};
  39.    
  40.     $g=[regex]::match($k.groups[2].value,'type="PUA">([\s\S]+?)</mapping>');
  41.     if($g.success){$arr[7]=$g.groups[1].value;};
  42.    
  43.     $h=[regex]::match($k.groups[2].value,'cb:dec="([^"]+?)".+?type="PUA"');
  44.     if($h.success){$arr[8]=$h.groups[1].value;};
  45.    
  46.     $reg='<g ref="#'+$a+'">(.+?)</g>'
  47.     $p=[regex]::match($text, $reg);
  48.     if($p.success){$arr[9]=$p.groups[1].value;};
  49.    
  50.     $line=$arr -join ',';
  51.     $sw.WriteLine($line);
  52.     $sw.Flush();
  53.   };
  54.   };
  55. };
  56. $sw.Close();
  57. $fs.Close();
复制代码
1

评分人数

提供bat代写,为你省时省力省事,支付宝扫码头像支付
微信: unique2random

TOP

本帖最后由 lxh623 于 2020-9-11 14:05 编辑

回复 2# zaqmlp

链接:https://pan.baidu.com/s/1YxgNeeQUNBCl0Iz5bNvkoQ
提取码:ix0w

与上次一样,得到excel。
篇名,字符名,三个<value>,最后一个PUA后面的值。
<char xml:id="SD-A442">得到字符名,正文有一段代码。

或者,上次的补加一些字段。

这次专门做一个搜索<g ref="#RJ-CB60">&#1100640;</g>,得到所有类似的代码。

谢谢!

TOP

完全看不懂要提取什么,发图示标明提取位置并把测试文件打包上传或发网盘
提供bat代写,为你省时省力省事,支付宝扫码头像支付
微信: unique2random

TOP

返回列表