[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[原创代码] [Perl]在线查询英汉对译 V1.66 支持中文/剪切板取词

本帖最后由 523066680 于 2015-6-14 21:34 编辑

测试环境:WIN XP or WIN7 32/64 , Perl v5.16 (ActiveState)

代码保存为UTF8编码格式,查询dict.cn网站的翻译结果
(一直想要一个终端版的翻译工具,挂着其他翻译工具或者开浏览器总感觉耗内存)

V1.3 更新内容
支持剪切板获取,同时可以在终端进行输入(在输入单个字符后自动切换到<STDIN>,节约循环开销)
按 / 或者 ESC 或者 输入exit 退出

V1.60 更新内容
添加了中文输入的判断处理(毕竟Term::ReadKey是逐字节读取,不过还好,Read两个字节后转<STDIN>小事化无)
如果Ctrl+C中文文本,需要确保系统默认输入法为中文,否则可能提取为乱码

V1.65 增加剪切板访问开关(按Tab键切换),修正部分文字、符号判断的BUG

  1. =info
  2.     Code by : 523066680@163.com
  3.        Date : 2015-06-14
  4.     Version : 1.66
  5.     按 Tab 键切换剪切板访问开关
  6.     键入 quit/exit 或者 按 ESC 退出
  7. =cut
  8. use            v5.16;    # given
  9. use             utf8;
  10. use           Encode;
  11. use       IO::Handle;
  12. use      LWP::Simple;
  13. use    Term::ReadKey;
  14. use Win32::Clipboard;
  15. use Time::HiRes 'sleep';
  16. ReadMode 4;              #Turn off controls keys
  17. system("");
  18. STDOUT->autoflush(1);
  19. binmode(STDOUT, ":encoding(gbk)");
  20. our $clip = Win32::Clipboard->new();
  21. our $main = "http:\/\/dict.cn";
  22. our $Clip_Access = 1;
  23. my $text;
  24. my $word;
  25. my $key;
  26. my $i = 0;
  27. $clip->Empty();
  28. notice();
  29. MAIN: while (1)
  30. {
  31.     clipboardEvent() if ( $Clip_Access == 1 );
  32.     keyboardEvent();
  33.     print $i == 0 ? "_\b" : " \b";
  34.     $i = 1 - $i;
  35.     sleep 0.2;
  36. }
  37. sub keyboardEvent
  38. {
  39.     my  $word;
  40.     $word = ReadKey(-1);
  41.     given ($word)
  42.     {
  43.         when ( /\r/   ) { break; }        # ReadKey状态下按 Enter = \r
  44.         when ( /\e/   ) { exit ; }        # 按 ESC 退出
  45.         when ( /\t/   ) { switch_CA(); }
  46.         when ( /.{1}/ ) { readContinue($word); }
  47.     }
  48. }
  49. sub switch_CA
  50. {
  51.     our $Clip_Access;
  52.     $Clip_Access = 1 - $Clip_Access;
  53.     notice();
  54. }
  55. sub readContinue
  56. {
  57.     my $word = shift;
  58.     my $LANG;
  59.     if ( ord($word) > 128 )                        #非ANSII即GBK
  60.     {
  61.         $word .= ReadKey(-1);                      #读入后半字节
  62.         if ( $word =~ /^[\xA1-\xA9]/ ) { break; }  #GBK 符号区域
  63.         $LANG = "CHN";
  64.     }
  65.     else
  66.     {   
  67.         if ( $word =~ /[^a-zA-Z]/    ) { break; }
  68.         $LANG = "ENG";
  69.     }
  70.     print " ", decode('gbk', $word);               #首字符输出
  71.     $word .= <STDIN>;
  72.     chomp      $word;
  73.     $word    = decode('gbk', $word);
  74.     if ( $word =~ /^(quit|exit)$/i   ) { exit;  }
  75.     trans($word, $LANG);
  76. }
  77. sub clipboardEvent
  78. {
  79.     our $clip;
  80.     my $text;
  81.     $text = $clip->GetText();
  82.     $text = decode('gbk', $text);
  83.     if ( $text =~ /\p{IsWord}/ )
  84.     {
  85.         #if ($text =~/\W/) { return; }
  86.         #最多匹配3个词
  87.         unless ( $text =~ /^( ?\p{IsWord}+ ?){1,3}$/ )
  88.         {
  89.             return;
  90.         }
  91.         print " $text {Clipboard}\n";
  92.         given ($text)
  93.         {
  94.             when (/\p{han}/) { trans($text, "CHN"); }
  95.             when (/[\w ]+/)  { trans($text, "ENG"); }
  96.         }
  97.         $clip->Empty();
  98.     }
  99. }
  100. sub trans
  101. {
  102.     our $main;
  103.     my  $word = shift;
  104.     my  $type = shift;
  105.     my  $all;
  106.     my  $chk  = 0;
  107.     $word = encode('utf8', $word);
  108.     $all  = get("$main/$word") or warn "$!";
  109.     $chk =
  110.         $type eq 'CHN' ?
  111.             Chn2Eng(\$all) : Eng2Chn(\$all);
  112.     if ($chk == 0)
  113.     {
  114.         print "找不到该单词的翻译信息。\n";
  115.     }
  116.     print "\n";
  117.     notice();
  118. }
  119. sub notice {
  120.     our $enable;
  121.     state $tip =
  122.     {
  123.         0 => "关",
  124.         1 => "开",
  125.     };
  126.     print "\b \b"x80;
  127.     print "(剪切板访问:". $tip->{ $Clip_Access };
  128.     print ") 请输入单词:";
  129. }
  130. sub Chn2Eng
  131. {
  132.     my $ref = shift;
  133.     my $start;
  134.     my $chk = 0;
  135.     for (split("\n", ${$ref}))
  136.     {
  137.         if ( /<div class="layout cn">/i ) { $start = 1; }
  138.         if ( $start == 1 )
  139.         {
  140.             if ( /<li><a href.*>(.*)<\/a><\/li>/i )
  141.             {
  142.                 print $1,"\n";
  143.                 $chk++;
  144.             }
  145.             elsif ( /<\/div>/i )
  146.             {
  147.                 last;
  148.             }
  149.         }
  150.     }
  151.     return $chk;
  152. }
  153. sub Eng2Chn
  154. {
  155.     my $ref = shift;
  156.     my $chk = 0;
  157.     for (split("\n", ${$ref}))
  158.     {
  159.         if (/<li><span>(.*)<\/span>
  160.              <strong>(.*)<\/strong>
  161.             /ix
  162.         ) {
  163.             print $1, $2,"\n";
  164.             $chk++;
  165.         }
  166.     }
  167.     return $chk;
  168. }
复制代码
1

评分人数

本帖最后由 523066680 于 2015-6-13 23:09 编辑

回复 2# aa77dd@163.com


    剪切板的可以,晚上弄。这次的脚本打算慢慢改进更新

再来一张

TOP

回复 2# aa77dd@163.com


      已添加剪切板读取功能,只在剪切版内容为单词、短语的时候尝试翻译
同时支持终端输入

TOP

本帖最后由 523066680 于 2015-6-14 09:04 编辑

回复 5# aa77dd@163.com


    if ( $text =~ /\p{IsWord}/ )
    {
        if ($text =~/\W/) { return; }  #空格或者其他符号类字符的情况被排除掉是因为这句

\w  匹配任何“字”字符(字母数字加"_" )。
\W 匹配任何“非字”字符。
用#注释掉就可以了,也可以自己定制一下

TOP

本帖最后由 523066680 于 2015-6-14 10:48 编辑

回复 8# aa77dd@163.com

    看来这个lingoes工具还好啊,以前用金山词霸感觉占用好高。
后来bing好像也用的不太流畅感觉。至于浏览器就呵呵…… 分分钟上百MB
30MB左右也不小了,我这里任务管理器观察的是7MB-13MB


刚刚探索了一下匹配一到三个词汇的,
unless ($text =~ /^( ?\p{IsWord}+ ?){1,3}$/) { return; }

TOP

本帖最后由 523066680 于 2015-6-14 12:56 编辑

回复 8# aa77dd@163.com


      话说跟正宗的软件不能比,各种细节。
只是多一个选择。本来是打算做成终端调用,偶尔用一下的,比如
>trans.pl abc

音频地址也找到了 : )

TOP

回复 12# aa77dd@163.com


       下一步是找个离线字典并想办法读出来

TOP

本帖最后由 523066680 于 2015-6-18 09:40 编辑

回复 12# aa77dd@163.com


兄弟有没有明文的离线字典?前几天下了有道的和金山的离线包,
靠,看不懂=_= 不知道他们的数据封装格式。有道的英汉字典有3个字典文件,一个idx索引文件

补充1:找到一个云词的离线字典资源挺充足,图片声音都可以分开下,db3文件,待会找个数据库软件打开试试
http://www.remword.cn/portal.php?mod=topic&topicid=7

TOP

下了一个旧软件的离线字典,找到了idx文件和lib文件的对照规律
然后发现做了简单的“加密”,还好不是很复杂的,仅仅是对每个字节的值做了偏移

TOP

回复 16# aa77dd@163.com


      虽然有其他明文资源,不过本着蛋疼的心态还是把有道的离线字典拆解完了
另外下载了dict.cn的桌面版,发现整体体验不错啊!占用内存仅19MB 但是刚打开的时候不知道是什么导致的莫名的卡。

TOP

返回列表