Board logo

标题: [文本处理] [已解决]求助批处理查找多音字替换对应拼音及拼音缩写的方法 [打印本页]

作者: thp2008    时间: 2023-10-23 15:35     标题: [已解决]求助批处理查找多音字替换对应拼音及拼音缩写的方法

本帖最后由 thp2008 于 2023-10-24 15:41 编辑

DuoYinZi.txt
藏,zang,Z
.......

BirdNamePYSX.txt内容示例如下:
花尾榛鸡,Hua Wei Zhen Ji ,HWZJ
黑琴鸡,Hei Qin Ji ,HQJ
雪鹑,Xue Chun ,XC
黄喉雉鹑,Huang Hou Zhi Chun ,HHZC
藏雪鸡,Cang Xue Ji ,CXJ
石鸡,Shi Ji ,SJ
大石鸡,Da Shi Ji ,DSJ
斑翅山鹑,Ban Chi Shan Chun ,BCSC
高原山鹑,Gao Yuan Shan Chun ,GYSC
.......

要求根据DuoYinZi.txt中的内容格式,将BirdNamePYSX.txt里,对应汉字的位置,对应拼音和拼音缩写进行替换。

如上例替换后,应该为:
藏雪鸡,Zang Xue Ji ,ZXJ

替换后,生成一个新文本文件保存即可。
主要是要确定汉字的位置,拼音的对应位置,缩写的字母的位置,才能进行对应替换,不知道怎么处理。
还请高手指导一下。

感谢!
作者: idwma    时间: 2023-10-23 22:21

  1. #@&cls&powershell "type '%~0'|out-string|iex"&pause&exit
  2. $1='BirdNamePYSX.txt'
  3. $2='DuoYinZi.txt'
  4. $f=@'
  5. $b=$_ -split ','
  6. $c=$b[1]-split ' '
  7. 0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}
  8. '@
  9. $a=gc $1
  10. $h=@{}
  11. $a|%{
  12.     iex $f
  13.     $arr+=,$b[0]
  14. }
  15. gc $2|%{iex $f}
  16. $arr|%{
  17.     $a=$_
  18.     $b=$c=''
  19.     $d=@()
  20.     0..($a.length-1)|%{
  21. $b+=$a[$_]
  22. $c+=([string]$h[$a[$_]][0]).toupper()
  23.         $e=$h[$a[$_]]
  24. $d+=,($e.substring(0,1).toupper()+$e.substring(1))
  25.     }
  26. '{0},{2},{1}' -f $b,$c,($d -join ' ').trim()
  27. }
复制代码

作者: thp2008    时间: 2023-10-24 00:40

感谢idwma的帮助,我测试了一下,报错信息如下,很长,我截取了一段
iex : 所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
字符串缺少终止符: '。
所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
表达式或语句中包含意外的标记“'
0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}”。
所在位置 D:\Birds\test.ps1:15 字符: 5
+     iex $f
+     ~~~~~~
    + CategoryInfo          : ParserError: ( [Invoke-Expression], ParseException
    + FullyQualifiedErrorId : TerminatorExpectedAtEndOfString,Microsoft.PowerShell.Commands.InvokeExpressionCommand

无法对 Null 数组进行索引。
所在位置 D:\Birds\test.ps1:16 字符: 5
+     $arr+=,$b[0]
+     ~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

iex : 所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
字符串缺少终止符: '。
所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
表达式或语句中包含意外的标记“'
0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}”。
所在位置 D:\Birds\test.ps1:15 字符: 5
+     iex $f
+     ~~~~~~
    + CategoryInfo          : ParserError: (:) [Invoke-Expression], ParseException
    + FullyQualifiedErrorId : TerminatorExpectedAtEndOfString,Microsoft.PowerShell.Commands.InvokeExpressionCommand

无法对 Null 数组进行索引。
所在位置 D:\Birds\test.ps1:16 字符: 5
+     $arr+=,$b[0]
+     ~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray
作者: 77七    时间: 2023-10-24 08:29

本帖最后由 77七 于 2023-10-24 10:35 编辑
  1. @echo off
  2. rem 批处理和文本全部保存为utf-8编码格式
  3. chcp 65001 >nul
  4. cd /d "%~dp0"
  5. setlocal enabledelayedexpansion
  6. for /f "useback tokens=1-3 delims=," %%a in ("DuoYinZi.txt") do (
  7. set b0=%%b
  8. set b1=!b0:~0,1!
  9. for %%x in (A B C D E F G H I J K L M N O P Q R S T U V W X Y Z) do (
  10. set b1=!b1:%%x=%%x!
  11. )
  12. set _%%a=!b1!!b0:~1!
  13. )
  14. set n=-1
  15. (for /f "useback tokens=1-3 delims=," %%a in ("BirdNamePYSX.txt") do (
  16. set a=%%a
  17. setlocal
  18. for %%x in (%%b) do (
  19. set /a n+=1
  20. set #!n!=%%x
  21. )
  22. for /l %%l in (0,1,!n!) do (
  23. set t=!a:~%%l,1!
  24. if defined _!t! (
  25. call set u=%%_!t!%%
  26. ) else (
  27. set u=!#%%l!
  28. )
  29. set c=!c!!u:~0,1!
  30. set "b=!b!!u! "
  31. )
  32. echo !a!,!b!,!c!
  33. endlocal
  34. ))>BirdNamePYSX_2.txt
  35. endlocal
  36. pause
复制代码

作者: 877    时间: 2023-10-24 08:42

回复 4# 77七


    大佬,求助~执行下面代码后想继续执行后面的命令,goto应该怎样改呢?
  1. rem 第二步
  2. set "OutputName=output.mp4"
  3. for %%i in (*.wav) do (
  4.     set "InputWav=%%i"
  5. )
  6. for %%i in (*.mp4) do (
  7.     set "InputMp4=%%i"
  8. )
  9. for /f "tokens=2-5 delims=:., " %%a in ('ffmpeg.exe -i "%InputWav%" 2^>^&1 ^| find "Duration:"') do (
  10.     call :Time2SS %%a %%b %%c %%d
  11. )
  12. set "SecondWav=%CS%"
  13. for /f "tokens=2-5 delims=:., " %%a in ('ffmpeg.exe -i "%InputMp4%" 2^>^&1 ^| find "Duration:"') do (
  14.     call :Time2SS %%a %%b %%c %%d
  15. )
  16. set "SecondMp4=%CS%"
  17. set "VideoFactor=%SecondWav%/%SecondMp4%"
  18. set "AudioFactor=%SecondMp4%/%SecondWav%"
  19. ffmpeg.exe -i "%InputMp4%" -vf "setpts=%VideoFactor%*PTS" -af "atempo=%AudioFactor%" "%OutputName%"
  20. goto :eof
  21. :Time2SS
  22. set /a HH=1%1-100,MM=1%2-100,SS=1%3-100
  23. set "CS=(%HH%*3600+%MM%*60+%3.%4)"
  24. goto :eof
  25. 想执行第三步
复制代码

作者: thp2008    时间: 2023-10-24 10:05

本帖最后由 thp2008 于 2023-10-24 10:20 编辑
77七 发表于 2023-10-24 08:29


测试基本可以。非常感谢!高手。

1、只是两点小问题,因为文本文件里,有些汉字较生僻,用ANSI保存,这部分汉字就会乱码,只能用UTF-8保存才不会乱码.
2、就是拼音缩写部分,我原来拼音缩写部分全是大写字母,替换后,全部变成了小写字母。拼音部分小写没关系。
作者: 77七    时间: 2023-10-24 10:37

回复 6# thp2008


   已在4楼修改。
作者: thp2008    时间: 2023-10-24 14:04

本帖最后由 thp2008 于 2023-10-24 14:10 编辑
回复  thp2008


   已在4楼修改。
77七 发表于 2023-10-24 10:37


感谢!我测试了一下,1、UTF-8编码,没有问题了。
2、大写的问题,输出变成了这样显示  藏雪鸡,Zang xue ji ,Zxj  正确应该是 : 藏雪鸡,zang xue ji ,ZXJ 其它的缩写还是小写。而且其它没有被替换的拼音缩写也全部变成了小写。或者你能不能在替换完成后,将最后的所有拼音缩写转换为大写,就可以了。
作者: 77七    时间: 2023-10-24 14:59

回复 8# thp2008


  
  1. @echo off
  2. rem 批处理和文本全部保存为utf-8编码格式
  3. chcp 65001 >nul
  4. cd /d "%~dp0"
  5. for /f "useback tokens=1-3 delims=," %%a in ("DuoYinZi.txt") do (
  6. set _%%a=%%b
  7. )
  8. set n=-1
  9. (for /f "useback tokens=1-3 delims=," %%a in ("BirdNamePYSX.txt") do (
  10. set a=%%a
  11. setlocal enabledelayedexpansion
  12. for %%x in (%%b) do (
  13. set /a n+=1
  14. set #!n!=%%x
  15. )
  16. for /l %%l in (0,1,!n!) do (
  17. set t=!a:~%%l,1!
  18. if defined _!t! (
  19. call set u=%%_!t!%%
  20. ) else (
  21. set u=!#%%l!
  22. )
  23. set c=!c!!u:~0,1!
  24. set "b=!b!!u! "
  25. )
  26. for %%x in (A B C D E F G H I J K L M N O P Q R S T U V W X Y Z) do (
  27. set c=!c:%%x=%%x!
  28. )
  29. echo !a!,!b!,!c!
  30. endlocal
  31. ))>BirdNamePYSX_2.txt
  32. endlocal
  33. pause
复制代码

作者: qixiaobin0715    时间: 2023-10-25 14:18

要是拼音之间没有空格该如何解决呢?
作者: buyiyang    时间: 2023-10-25 18:37

回复 10# qixiaobin0715
我简单写了一个进行拼音分词的批处理,由于是最大匹配,有时会有问题
  1. @echo off
  2. set /p input=请输入拼音:
  3. set "input=%input: =%"
  4. if "%input%"=="" (echo,输入为空&exit)
  5. call :dict
  6. setlocal enabledelayedexpansion
  7. call :split "!%input:~0,1%!"
  8. echo,%result%
  9. pause
  10. :split
  11. if /i "%~1"=="" goto :eof
  12. set "qstring=%~1"
  13. for /l %%a in (5,-1,0) do if not "!input:~%%a,1!"=="" (
  14.     set /a in=%%a+1
  15.     call set "py=%%input:~0,!in!%%"
  16.     goto :next
  17. )
  18. :next
  19. if /i "!qstring:%py% =!"=="%qstring%" (
  20.     set "py=%py:~0,-1%"
  21.     goto :next) else (
  22.     set "result=!result! %py%"
  23.     set "input=!input:%py%=!"
  24.     if "!input!"=="" goto :eof
  25.     call :split "%%!input:~0,1!%%"
  26.     )
  27. goto :eof
  28. :dict
  29. set "a=a ai an ang ao "
  30. set "b=ba bai ban bang bao bei ben beng bi bian biao bie bin bing bo bu "
  31. set "c=ca cai can cang cao ce ceng cha chai chan chang chao che chen cheng chi chong chou chu chuai chuan chuang chui chun chuo ci cong cou cu cuan cui cun cuo "
  32. set "d=da dai dan dang dao de deng di dian diao die ding diu dong dou du duan dui dun duo "
  33. set "e=e en er "
  34. set "f=fa fan fang fei fen feng fo fou fu "
  35. set "g=ga gai gan gang gao ge gei gen geng gong gou gu gua guai guan guang gui gun guo "
  36. set "h=ha hai han hang hao he hei hen heng hong hou hu hua huai huan huang hui hun huo "
  37. set "j=ji jia jian jiang jiao jie jin jing jiong jiu ju juan jue jun "
  38. set "k=ka kai kan kang kao ke ken keng kong kou ku kua kuai kuan kuang kui kun kuo "
  39. set "l=la lai lan lang lao le lei leng li lia lian liang liao lie lin ling liu long lou lu lv luan lue lun luo "
  40. set "m=ma mai man mang mao me mei men meng mi mian miao mie min ming miu mo mou mu "
  41. set "n=na nai nan nang nao ne nei nen neng ni nian niang niao nie nin ning niu nong nu nv nuan nue nuo "
  42. set "o=o ou "
  43. set "p=pa pai pan pang pao pei pen peng pi pian piao pie pin ping po pu "
  44. set "q=qi qia qian qiang qiao qie qin qing qiong qiu qu quan que qun "
  45. set "r=ran rang rao re ren reng ri rong rou ru ruan rui run ruo "
  46. set "s=sa sai san sang sao se sen seng sha shai shan shang shao she shen sheng shi shou shu shua shuai shuan shuang shui shun shuo si song sou su suan sui sun suo "
  47. set "t=ta tai tan tang tao te teng ti tian tiao tie ting tong tou tu tuan tui tun tuo "
  48. set "w=wa wai wan wang wei wen weng wo wu "
  49. set "x=xi xia xian xiang xiao xie xin xing xiong xiu xu xuan xue xun "
  50. set "y=ya yan yang yao ye yi yin ying yo yong you yu yuan yue yun "
  51. set "z=za zai zan zang zao ze zei zen zeng zha zhai zhan zhang zhao zhe zhen zheng zhi zhong zhou zhu zhua zhuai zhuan zhuang zhui zhun zhuo zi zong zou zu zuan zui zun zuo "
复制代码

作者: qixiaobin0715    时间: 2023-10-26 10:07

回复 11# buyiyang
是的,不过绝大部分没有问题。
作者: qixiaobin0715    时间: 2023-10-26 10:35

如果按照77七的办法,应当也能解决,思路如下:
1.汉字数可用第三列拼音缩写获取。示范如下
  1. setlocal enabledelayedexpansion
  2. set str=HWGS
  3. set letters=A B C D ... Z
  4. for %%i in (!letters!) do set str=!str:%%i=%%i !
  5. for %%i in (!str!) do set /a n+=1
复制代码
2.获得第x个汉字是多音字后,可以找出第二列第x个大写字母来确定需要替换的拼音,进行替换。
3.也可以提前找出哪些行存在多音字,只对这些行进行替换,其它行原样显示即可,可以提高效率。




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2