【解决】40元求xml信息获取

本帖最后由 lxh623 于 2020-9-12 07:42 编辑

http://www.bathome.net/thread-56119-1-1.html
上次求了一次，觉得不够用。
第一，上一次的加上一个字段——篇名。（xml名字）有时候想找字。
第二，关于悉昙字和兰札字。

<char xml:id="SD-A442">
	<charName>CBETA CHARACTER SD-A442</charName>
	<charProp>
		<localName>Romanized form in CBETA transcription</localName>
		<value>ki</value>
	</charProp>
	<charProp>
		<localName>Character in the Siddham font</localName>
		<value>丁</value>
	</charProp>
	<charProp>
		<localName>Romanized form in Unicode transcription</localName>
		<value>ki</value>
	</charProp>
	<mapping cb:dec="1066050" type="PUA">U+104442</mapping>
</char>
<char xml:id="RJ-CAC5">
	<charName>CBETA CHARACTER RJ-CAC5</charName>
	<charProp>
		<localName>Romanized form in CBETA transcription</localName>
		<value>hri</value>
	</charProp>
	<charProp>
		<localName>rjchar</localName>
		<value>岒</value>
	</charProp>
	<charProp>
		<localName>Romanized form in Unicode transcription</localName>
		<value>hri</value>
	</charProp>
	<mapping cb:dec="1100485" type="PUA">U+10CAC5</mapping>
</char>
复制代码

第一个来自于T21n1320，第二个是T21n1419。
除了篇名，字符名，还有四个值。
还想要一个值，就是正文，得到字符名称后，搜索。比如，<g ref="#RJ-CB60">􌭠</g>或者<g ref="#SD-A44A">􄑊</g>。这一串或者中间的值，都可以。
结果当然需要UTF8。而且这个字符是乱码。仍然得到，主要是以后可以替换。

谢谢！

奇怪，浏览器乱码显示的数字大概就是最后一个字段括号内的数字，但是，替换的话，可能最好提取内容。

lxh623

中尉

Rank: 5 Rank: 5

帖子: 378
积分: 761
技术: 2
捐助: 0
注册时间: 2008-11-24

2楼

发表于 2020-9-11 13:59 | 显示全部帖子

本帖最后由 lxh623 于 2020-9-11 14:05 编辑

回复 2# zaqmlp

链接：https://pan.baidu.com/s/1YxgNeeQUNBCl0Iz5bNvkoQ
提取码：ix0w

与上次一样，得到excel。
篇名，字符名，三个<value>，最后一个PUA后面的值。
<char xml:id="SD-A442">得到字符名，正文有一段代码。

或者，上次的补加一些字段。

这次专门做一个搜索<g ref="#RJ-CB60">􌭠</g>，得到所有类似的代码。

谢谢！

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 378
积分: 761
技术: 2
捐助: 0
注册时间: 2008-11-24

3楼

发表于 2020-9-12 07:16 | 显示全部帖子

本帖最后由 lxh623 于 2020-9-12 07:25 编辑

谢谢两位。

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

【解决】40元求xml信息获取

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]