[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【完结】50元求批处理——汉字信息提取

本帖最后由 lxh623 于 2020-11-20 07:42 编辑

文本a是如下:
CB30597        [灬亠口├〡兀木]
方括号里面有些解析部件。有些可能有unicode码,有些没有。
文本IDS,如下:
U+24410        𤐐        ⿰火詹
文本dump,如下:
u6b0b   | 99:0:0:2:0:160:200:u6728-01$99:0:0:59:0:197:200:dkw-23747@1
我的想法是:
把方括号里面的解析部件,从文本IDS提取unicode码,在文本dump搜索,同时含有所有的话,(没有unicode码的,忽略)把文本a那一行写入文本b,后面加上制表符+文本dump中制表符前面的内容。多个可能,就写几行。
文本IDS中的unicode码,我也可以处理到与文本dump一样。

所有文本编码是UTF8。

谢谢!

回复 2# zaqmlp
大致处理之后,上传了。dump想存UTF8,怎么也保存不了。
链接:https://pan.baidu.com/s/1pc2as9CPfpTwejYLwd1Vcw
提取码:q35z

谢谢!

TOP

本帖最后由 lxh623 于 2020-11-18 10:10 编辑

回复 6# WHY
CB33973        [十后]        u5341        u540e
我的意思是在dump找到同时含有这两个或者几个Unicode码的行,把前面写到]+制表符后面。【这个例子好像没有】

发现一个问题,原件u3013开头的行,可以删除。

CB13270        [刂耳]        u5202        u8033
这个有结果。但是,出来几个u205dc、u5235、u3013、u265ff、u350c、u8069。去掉u3013,还有五个。
所以,要是用以搜索的有n个unicode码,dump行里面就最好限定n+1个unicode码,可能更好。
或者,出来十个,都写上。自己再来删除重复。

结果样式:(这个都可以,都需要自己调整。)
CB13270        [刂耳]        u5235
CB13270        [刂耳]        刵

谢谢!

TOP

很奇怪,有一个字,两位都没有找到。我手动筛选,找到了。
CB33086        [宀乙] 察

TOP

帐结了,感谢两位。

TOP

返回列表