找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
楼主: qixiaobin0715

[其他] [已解决]如何提取海词在线词典中的“海词释义常用度分布图”

[复制链接]
 楼主| 发表于 2019-8-29 18:07:24 | 显示全部楼层
回复 15# flashercs
测试成功!但存在一些小问题,有些单词未提取出来。分三种情况:
1.大多数属于单词本身在词典中不存在“分布图”,并且提示错误,结果中忽略。如fines、cavalry、GDP等
2.不存在分布图,运行未提示错误,直接忽略。如baseman。是释义中的括号造成的吗?
3.有“分布图”,直接忽略。不知什么情况。有这样几个单词:
  1. in-depth
  2. storytelling
  3. same-sex
  4. high-end
  5. sweaty
  6. first-time
  7. president-elect

复制代码
请帮忙给看看。能否这样解决:
1.释义和分布图内容之间用制表符分隔。
2.对于第1、2条的问题,在提取结果中条目只列出单词和释义。
3.第3条出了什么问题,能否解决。
发表于 2019-8-29 20:24:07 | 显示全部楼层
回复 16# qixiaobin0715


    你什么Windows系统?不太敢用htmldom,win7与win10对html兼容性差别很大
发表于 2019-8-29 20:49:17 | 显示全部楼层
本帖最后由 terse 于 2019-8-29 22:53 编辑

这样可以吗
  1. @set @i=0 /* & @echo off & >提取结果.txt cscript.exe -NoLogo -E:JScript %0 <单词列表.txt & pause exit  */
  2. var xmlhttp = new ActiveXObject("Msxml2.XMLHTTP");
  3. function GetContent(url) {
  4.         xmlhttp.open("GET", url ,false);
  5.         xmlhttp.send();
  6.         return(xmlhttp.responseText);
  7. };

  8. while (!WSH.StdIn.AtEndOfStream) {
  9.       var str = WSH.StdIn.ReadLine();
  10.       if (str) {
  11.            var url = "http://dict.cn/" + str;
  12.            var html = new ActiveXObject("htmlfile");
  13.            html.write(GetContent(url));
  14.            var t = html.getElementsByTagName("ul")[0];
  15.            if (t) {
  16.                str += "\t" + t.innerText.replace(/[\r\n]/gm,'') + "。\t";
  17.                if (html.getElementById("dict-chart-basic")) {
  18.                    var obj = new Function("return" + unescape(html.getElementById("dict-chart-basic").data))();
  19.                    for(var key in obj ){  str += obj[key].percent > 5 ? obj[key].sense + ":"+ obj[key].percent + "%, " : ""};
  20.                }
  21.            };
  22.            else { str += "\t" + "错误" };
  23.            WSH.Echo(str);
  24.      };
  25. };
复制代码
 楼主| 发表于 2019-8-29 21:49:23 | 显示全部楼层
回复 17# flashercs

单位的电脑是Windows7,家里的是Windows10.最好能在单位用,家里用也可。
 楼主| 发表于 2019-8-29 21:55:09 | 显示全部楼层
回复 18# terse
因为有些单词不存在分布图信息,可能会产生错误。
你的代码测试后发现,遇到不含分布图的单词会闪退。比如单词railway就没有分布图信息。单词列表:
good
railway
big
闪退后,只有good的信息能够提取出来。
发表于 2019-8-29 22:04:40 | 显示全部楼层
回复 20# qixiaobin0715


    已修改代码,请测试,支持win7和win10
 楼主| 发表于 2019-8-29 22:21:48 | 显示全部楼层
回复 21# flashercs

完全符合要求,很好用。
发表于 2019-8-29 22:54:49 | 显示全部楼层
回复 20# qixiaobin0715
加了一个判断
 楼主| 发表于 2019-8-29 23:06:53 | 显示全部楼层
回复 23# terse
测试成功!谢谢!
 楼主| 发表于 2019-8-29 23:08:08 | 显示全部楼层
这里一并感谢所有关注的人。谢谢!
 楼主| 发表于 2019-8-30 08:45:23 | 显示全部楼层
回复 15# flashercs
测试中发现了个小问题,海词查不到的单词比如sauté,提示错误,结果中忽略。好修改的话,就麻烦了,结果中只列出单词即可。这种情况不多,要是太麻烦了就算了。
发表于 2019-8-30 13:07:14 | 显示全部楼层
回复 26# qixiaobin0715

本来就有错误提示啊,结果也忽略了,你的意思是怎么修改?
 楼主| 发表于 2019-8-30 13:53:08 | 显示全部楼层
回复 27# flashercs
查不到的单词在结果文本中也占一行,此行只显示单词即可。
 楼主| 发表于 2019-8-30 14:38:37 | 显示全部楼层
回复 27# flashercs
算了,怪麻烦的,就这样吧。谢谢了
发表于 2019-8-30 19:44:01 | 显示全部楼层
回复 29# qixiaobin0715


    已修改了,主要是没明白你的要求!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-17 03:19 , Processed in 0.016757 second(s), 6 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表