[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决]求助批处理查找多音字替换对应拼音及拼音缩写的方法

本帖最后由 thp2008 于 2023-10-24 15:41 编辑

DuoYinZi.txt
藏,zang,Z
.......

BirdNamePYSX.txt内容示例如下:
花尾榛鸡,Hua Wei Zhen Ji ,HWZJ
黑琴鸡,Hei Qin Ji ,HQJ
雪鹑,Xue Chun ,XC
黄喉雉鹑,Huang Hou Zhi Chun ,HHZC
藏雪鸡,Cang Xue Ji ,CXJ
石鸡,Shi Ji ,SJ
大石鸡,Da Shi Ji ,DSJ
斑翅山鹑,Ban Chi Shan Chun ,BCSC
高原山鹑,Gao Yuan Shan Chun ,GYSC
.......

要求根据DuoYinZi.txt中的内容格式,将BirdNamePYSX.txt里,对应汉字的位置,对应拼音和拼音缩写进行替换。

如上例替换后,应该为:
藏雪鸡,Zang Xue Ji ,ZXJ

替换后,生成一个新文本文件保存即可。
主要是要确定汉字的位置,拼音的对应位置,缩写的字母的位置,才能进行对应替换,不知道怎么处理。
还请高手指导一下。

感谢!
1

评分人数

    • Batcher: 感谢给帖子标题标注[已解决]字样PB + 2

如果按照77七的办法,应当也能解决,思路如下:
1.汉字数可用第三列拼音缩写获取。示范如下
  1. setlocal enabledelayedexpansion
  2. set str=HWGS
  3. set letters=A B C D ... Z
  4. for %%i in (!letters!) do set str=!str:%%i=%%i !
  5. for %%i in (!str!) do set /a n+=1
复制代码
2.获得第x个汉字是多音字后,可以找出第二列第x个大写字母来确定需要替换的拼音,进行替换。
3.也可以提前找出哪些行存在多音字,只对这些行进行替换,其它行原样显示即可,可以提高效率。

TOP

回复 11# buyiyang
是的,不过绝大部分没有问题。

TOP

回复 10# qixiaobin0715
我简单写了一个进行拼音分词的批处理,由于是最大匹配,有时会有问题
  1. @echo off
  2. set /p input=请输入拼音:
  3. set "input=%input: =%"
  4. if "%input%"=="" (echo,输入为空&exit)
  5. call :dict
  6. setlocal enabledelayedexpansion
  7. call :split "!%input:~0,1%!"
  8. echo,%result%
  9. pause
  10. :split
  11. if /i "%~1"=="" goto :eof
  12. set "qstring=%~1"
  13. for /l %%a in (5,-1,0) do if not "!input:~%%a,1!"=="" (
  14.     set /a in=%%a+1
  15.     call set "py=%%input:~0,!in!%%"
  16.     goto :next
  17. )
  18. :next
  19. if /i "!qstring:%py% =!"=="%qstring%" (
  20.     set "py=%py:~0,-1%"
  21.     goto :next) else (
  22.     set "result=!result! %py%"
  23.     set "input=!input:%py%=!"
  24.     if "!input!"=="" goto :eof
  25.     call :split "%%!input:~0,1!%%"
  26.     )
  27. goto :eof
  28. :dict
  29. set "a=a ai an ang ao "
  30. set "b=ba bai ban bang bao bei ben beng bi bian biao bie bin bing bo bu "
  31. set "c=ca cai can cang cao ce ceng cha chai chan chang chao che chen cheng chi chong chou chu chuai chuan chuang chui chun chuo ci cong cou cu cuan cui cun cuo "
  32. set "d=da dai dan dang dao de deng di dian diao die ding diu dong dou du duan dui dun duo "
  33. set "e=e en er "
  34. set "f=fa fan fang fei fen feng fo fou fu "
  35. set "g=ga gai gan gang gao ge gei gen geng gong gou gu gua guai guan guang gui gun guo "
  36. set "h=ha hai han hang hao he hei hen heng hong hou hu hua huai huan huang hui hun huo "
  37. set "j=ji jia jian jiang jiao jie jin jing jiong jiu ju juan jue jun "
  38. set "k=ka kai kan kang kao ke ken keng kong kou ku kua kuai kuan kuang kui kun kuo "
  39. set "l=la lai lan lang lao le lei leng li lia lian liang liao lie lin ling liu long lou lu lv luan lue lun luo "
  40. set "m=ma mai man mang mao me mei men meng mi mian miao mie min ming miu mo mou mu "
  41. set "n=na nai nan nang nao ne nei nen neng ni nian niang niao nie nin ning niu nong nu nv nuan nue nuo "
  42. set "o=o ou "
  43. set "p=pa pai pan pang pao pei pen peng pi pian piao pie pin ping po pu "
  44. set "q=qi qia qian qiang qiao qie qin qing qiong qiu qu quan que qun "
  45. set "r=ran rang rao re ren reng ri rong rou ru ruan rui run ruo "
  46. set "s=sa sai san sang sao se sen seng sha shai shan shang shao she shen sheng shi shou shu shua shuai shuan shuang shui shun shuo si song sou su suan sui sun suo "
  47. set "t=ta tai tan tang tao te teng ti tian tiao tie ting tong tou tu tuan tui tun tuo "
  48. set "w=wa wai wan wang wei wen weng wo wu "
  49. set "x=xi xia xian xiang xiao xie xin xing xiong xiu xu xuan xue xun "
  50. set "y=ya yan yang yao ye yi yin ying yo yong you yu yuan yue yun "
  51. set "z=za zai zan zang zao ze zei zen zeng zha zhai zhan zhang zhao zhe zhen zheng zhi zhong zhou zhu zhua zhuai zhuan zhuang zhui zhun zhuo zi zong zou zu zuan zui zun zuo "
复制代码

TOP

要是拼音之间没有空格该如何解决呢?

TOP

回复 8# thp2008


  
  1. @echo off
  2. rem 批处理和文本全部保存为utf-8编码格式
  3. chcp 65001 >nul
  4. cd /d "%~dp0"
  5. for /f "useback tokens=1-3 delims=," %%a in ("DuoYinZi.txt") do (
  6. set _%%a=%%b
  7. )
  8. set n=-1
  9. (for /f "useback tokens=1-3 delims=," %%a in ("BirdNamePYSX.txt") do (
  10. set a=%%a
  11. setlocal enabledelayedexpansion
  12. for %%x in (%%b) do (
  13. set /a n+=1
  14. set #!n!=%%x
  15. )
  16. for /l %%l in (0,1,!n!) do (
  17. set t=!a:~%%l,1!
  18. if defined _!t! (
  19. call set u=%%_!t!%%
  20. ) else (
  21. set u=!#%%l!
  22. )
  23. set c=!c!!u:~0,1!
  24. set "b=!b!!u! "
  25. )
  26. for %%x in (A B C D E F G H I J K L M N O P Q R S T U V W X Y Z) do (
  27. set c=!c:%%x=%%x!
  28. )
  29. echo !a!,!b!,!c!
  30. endlocal
  31. ))>BirdNamePYSX_2.txt
  32. endlocal
  33. pause
复制代码
1

评分人数

    • thp2008: 完全满足要求,感谢帮助技术 + 1
bat小白,请多指教!谢谢!

TOP

本帖最后由 thp2008 于 2023-10-24 14:10 编辑
回复  thp2008


   已在4楼修改。
77七 发表于 2023-10-24 10:37


感谢!我测试了一下,1、UTF-8编码,没有问题了。
2、大写的问题,输出变成了这样显示  藏雪鸡,Zang xue ji ,Zxj  正确应该是 : 藏雪鸡,zang xue ji ,ZXJ 其它的缩写还是小写。而且其它没有被替换的拼音缩写也全部变成了小写。或者你能不能在替换完成后,将最后的所有拼音缩写转换为大写,就可以了。

TOP

回复 6# thp2008


   已在4楼修改。
bat小白,请多指教!谢谢!

TOP

本帖最后由 thp2008 于 2023-10-24 10:20 编辑
77七 发表于 2023-10-24 08:29


测试基本可以。非常感谢!高手。

1、只是两点小问题,因为文本文件里,有些汉字较生僻,用ANSI保存,这部分汉字就会乱码,只能用UTF-8保存才不会乱码.
2、就是拼音缩写部分,我原来拼音缩写部分全是大写字母,替换后,全部变成了小写字母。拼音部分小写没关系。

TOP

回复 4# 77七


    大佬,求助~执行下面代码后想继续执行后面的命令,goto应该怎样改呢?
  1. rem 第二步
  2. set "OutputName=output.mp4"
  3. for %%i in (*.wav) do (
  4.     set "InputWav=%%i"
  5. )
  6. for %%i in (*.mp4) do (
  7.     set "InputMp4=%%i"
  8. )
  9. for /f "tokens=2-5 delims=:., " %%a in ('ffmpeg.exe -i "%InputWav%" 2^>^&1 ^| find "Duration:"') do (
  10.     call :Time2SS %%a %%b %%c %%d
  11. )
  12. set "SecondWav=%CS%"
  13. for /f "tokens=2-5 delims=:., " %%a in ('ffmpeg.exe -i "%InputMp4%" 2^>^&1 ^| find "Duration:"') do (
  14.     call :Time2SS %%a %%b %%c %%d
  15. )
  16. set "SecondMp4=%CS%"
  17. set "VideoFactor=%SecondWav%/%SecondMp4%"
  18. set "AudioFactor=%SecondMp4%/%SecondWav%"
  19. ffmpeg.exe -i "%InputMp4%" -vf "setpts=%VideoFactor%*PTS" -af "atempo=%AudioFactor%" "%OutputName%"
  20. goto :eof
  21. :Time2SS
  22. set /a HH=1%1-100,MM=1%2-100,SS=1%3-100
  23. set "CS=(%HH%*3600+%MM%*60+%3.%4)"
  24. goto :eof
  25. 想执行第三步
复制代码

TOP

本帖最后由 77七 于 2023-10-24 10:35 编辑
  1. @echo off
  2. rem 批处理和文本全部保存为utf-8编码格式
  3. chcp 65001 >nul
  4. cd /d "%~dp0"
  5. setlocal enabledelayedexpansion
  6. for /f "useback tokens=1-3 delims=," %%a in ("DuoYinZi.txt") do (
  7. set b0=%%b
  8. set b1=!b0:~0,1!
  9. for %%x in (A B C D E F G H I J K L M N O P Q R S T U V W X Y Z) do (
  10. set b1=!b1:%%x=%%x!
  11. )
  12. set _%%a=!b1!!b0:~1!
  13. )
  14. set n=-1
  15. (for /f "useback tokens=1-3 delims=," %%a in ("BirdNamePYSX.txt") do (
  16. set a=%%a
  17. setlocal
  18. for %%x in (%%b) do (
  19. set /a n+=1
  20. set #!n!=%%x
  21. )
  22. for /l %%l in (0,1,!n!) do (
  23. set t=!a:~%%l,1!
  24. if defined _!t! (
  25. call set u=%%_!t!%%
  26. ) else (
  27. set u=!#%%l!
  28. )
  29. set c=!c!!u:~0,1!
  30. set "b=!b!!u! "
  31. )
  32. echo !a!,!b!,!c!
  33. endlocal
  34. ))>BirdNamePYSX_2.txt
  35. endlocal
  36. pause
复制代码
bat小白,请多指教!谢谢!

TOP

感谢idwma的帮助,我测试了一下,报错信息如下,很长,我截取了一段
iex : 所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
字符串缺少终止符: '。
所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
表达式或语句中包含意外的标记“'
0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}”。
所在位置 D:\Birds\test.ps1:15 字符: 5
+     iex $f
+     ~~~~~~
    + CategoryInfo          : ParserError: ( [Invoke-Expression], ParseException
    + FullyQualifiedErrorId : TerminatorExpectedAtEndOfString,Microsoft.PowerShell.Commands.InvokeExpressionCommand

无法对 Null 数组进行索引。
所在位置 D:\Birds\test.ps1:16 字符: 5
+     $arr+=,$b[0]
+     ~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

iex : 所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
字符串缺少终止符: '。
所在位置 行:2 字符: 18
+ $c=$b[1]-split ' '
+                  ~
表达式或语句中包含意外的标记“'
0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}”。
所在位置 D:\Birds\test.ps1:15 字符: 5
+     iex $f
+     ~~~~~~
    + CategoryInfo          : ParserError: (:) [Invoke-Expression], ParseException
    + FullyQualifiedErrorId : TerminatorExpectedAtEndOfString,Microsoft.PowerShell.Commands.InvokeExpressionCommand

无法对 Null 数组进行索引。
所在位置 D:\Birds\test.ps1:16 字符: 5
+     $arr+=,$b[0]
+     ~~~~~~~~~~~~
    + CategoryInfo          : InvalidOperation: (:) [],RuntimeException
    + FullyQualifiedErrorId : NullArray

TOP

  1. #@&cls&powershell "type '%~0'|out-string|iex"&pause&exit
  2. $1='BirdNamePYSX.txt'
  3. $2='DuoYinZi.txt'
  4. $f=@'
  5. $b=$_ -split ','
  6. $c=$b[1]-split ' '
  7. 0..($b[0].length-1)|%{$h[$b[0][$_]]=$c[$_]}
  8. '@
  9. $a=gc $1
  10. $h=@{}
  11. $a|%{
  12.     iex $f
  13.     $arr+=,$b[0]
  14. }
  15. gc $2|%{iex $f}
  16. $arr|%{
  17.     $a=$_
  18.     $b=$c=''
  19.     $d=@()
  20.     0..($a.length-1)|%{
  21. $b+=$a[$_]
  22. $c+=([string]$h[$a[$_]][0]).toupper()
  23.         $e=$h[$a[$_]]
  24. $d+=,($e.substring(0,1).toupper()+$e.substring(1))
  25.     }
  26. '{0},{2},{1}' -f $b,$c,($d -join ' ').trim()
  27. }
复制代码

TOP

返回列表