[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【解决】40元求xml信息获取

本帖最后由 lxh623 于 2020-9-12 07:42 编辑

http://www.bathome.net/thread-56119-1-1.html
上次求了一次,觉得不够用。
第一,上一次的加上一个字段——篇名。(xml名字)有时候想找字。
第二,关于悉昙字和兰札字。
  1. <char xml:id="SD-A442">
  2. <charName>CBETA CHARACTER SD-A442</charName>
  3. <charProp>
  4. <localName>Romanized form in CBETA transcription</localName>
  5. <value>ki</value>
  6. </charProp>
  7. <charProp>
  8. <localName>Character in the Siddham font</localName>
  9. <value>丁</value>
  10. </charProp>
  11. <charProp>
  12. <localName>Romanized form in Unicode transcription</localName>
  13. <value>ki</value>
  14. </charProp>
  15. <mapping cb:dec="1066050" type="PUA">U+104442</mapping>
  16. </char>
  17. <char xml:id="RJ-CAC5">
  18. <charName>CBETA CHARACTER RJ-CAC5</charName>
  19. <charProp>
  20. <localName>Romanized form in CBETA transcription</localName>
  21. <value>hri</value>
  22. </charProp>
  23. <charProp>
  24. <localName>rjchar</localName>
  25. <value>岒</value>
  26. </charProp>
  27. <charProp>
  28. <localName>Romanized form in Unicode transcription</localName>
  29. <value>hri</value>
  30. </charProp>
  31. <mapping cb:dec="1100485" type="PUA">U+10CAC5</mapping>
  32. </char>
复制代码
第一个来自于T21n1320,第二个是T21n1419。
除了篇名,字符名,还有四个值。
还想要一个值,就是正文,得到字符名称后,搜索。比如,<g ref="#RJ-CB60">&#1100640;</g>或者<g ref="#SD-A44A">&#1066058;</g>。这一串或者中间的值,都可以。
结果当然需要UTF8。而且这个字符是乱码。仍然得到,主要是以后可以替换。

谢谢!

奇怪,浏览器乱码显示的数字大概就是最后一个字段括号内的数字,但是,替换的话,可能最好提取内容。

本帖最后由 lxh623 于 2020-9-11 14:05 编辑

回复 2# zaqmlp

链接:https://pan.baidu.com/s/1YxgNeeQUNBCl0Iz5bNvkoQ
提取码:ix0w

与上次一样,得到excel。
篇名,字符名,三个<value>,最后一个PUA后面的值。
<char xml:id="SD-A442">得到字符名,正文有一段代码。

或者,上次的补加一些字段。

这次专门做一个搜索<g ref="#RJ-CB60">&#1100640;</g>,得到所有类似的代码。

谢谢!

TOP

本帖最后由 lxh623 于 2020-9-12 07:25 编辑

谢谢两位。

TOP

返回列表