Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2016-8-22 13:20 | 只看该作者

[问题求助] 【已解决】想改进一个别人的有点词典的爬取程序，不懂Python

本帖最后由 949825667@qq.co 于 2016-8-30 16:45 编辑

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2014-04-03 21:12:16
# @Function: 有道翻译命令行版
# @Author  : BeginMan

import os
import sys
import urllib
import urllib2
reload(sys)
sys.setdefaultencoding("utf-8")
import simplejson as json
import platform
import datetime

API_KEY = '1542783714'
KEYFORM = 'dyzwordyoudao'

    
def GetTranslate(txt):
    url = 'http://fanyi.youdao.com/openapi.do'
    data = {
    'keyfrom': KEYFORM,
    'key': API_KEY,
    'type': 'data',
    'doctype': 'json',
    'version': 1.1,
    'q': txt
    }
    data = urllib.urlencode(data)
    url = url+'?'+data
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    result = json.loads(response.read())
    return result
    
def Sjson(json_data):
    query = json_data.get('query','')               # 查询的文朿
    translation = json_data.get('translation','')   # 翻译
    basic = json_data.get('basic','')               # basic 列表
    sequence = json_data.get('web',[])              # 短语列表
    phonetic,explains_txt,seq_txt,log_word_explains = '','','',''
    
    # 更多释义
    if basic:
        phonetic = basic.get('phonetic','')         # 音标
        explains = basic.get('explains',[])         # 更多释义 列表
        for obj in explains:
            explains_txt += obj+'\n'
            log_word_explains += obj+','    
    # 句子解析
    if sequence:
        for obj in sequence:
            seq_txt += obj['key']+'\n'
            values = ''
            for i in obj['value']:
                values += i+','
            seq_txt += values+'\n'
        
    print_format = '*'*40+'\n'
    print_format += u' %s [%s]\n' %(query,phonetic)   
    print_format += explains_txt
    print_format += '-'*20+'\n'+seq_txt
    print_format += '*'*40+'\n'
#print print_format
    choices = raw_input(u'y or n')
    if choices in ['y','Y']:
        filepath = r'/home/beginman/pyword/%s.xml' %datetime.date.today()
        if (platform.system()).lower() == 'windows':
            filepath = r'C:\Python27\%s.xml' %datetime.date.today()
        fp = open(filepath,'a+')
        file = fp.readlines()
        if not file:
            fp.write('<wordbook>\n')
            fp.write(u"""    <item>\n    <word>%s</word>\n    <trans><![CDATA[%s]]></trans>\n    <phonetic><![CDATA[[%s]]]></phonetic>\n    <tags>%s</tags>\n    <progress>1</progress>\n    </item>\n\n""" %(query,log_word_explains,phonetic,datetime.date.today()))
        fp.close()
        print u'success.'

        


def main():
    f = open('1.txt','r')
    while True:
        line = f.readline()
        if line:
            txt = line
            Sjson(GetTranslate(txt))

if __name__ == '__main__':
    main()
复制代码

1 评分人数

pcl_test: 有点词典什么鬼PB -2

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

2楼

发表于 2016-8-22 13:21 | 只看该作者

上面的代码是我改了以后的，输入变成了从文本输入！但是输出的结果不会追加！

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

3楼

发表于 2016-8-22 13:22 | 只看该作者

<wordbook>
<item>
<word>dentistry</word>
<trans><![CDATA[n. 牙科学；牙医业,]]></trans>
<phonetic><![CDATA[['dentɪstrɪ]]]></phonetic>
<tags>2016-08-22</tags>
<progress>1</progress>
</item>
输出结果是这样的，按理说会不停的追加的！我没太看懂他的代码，还有怎么样才能取消他那个y or n的判断？

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

4楼

发表于 2016-8-22 13:39 | 只看该作者

我自己改了一下，可以累加输出了，但是怎么取消判断啊！我才看了几章Python

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

5楼

发表于 2016-8-22 13:47 | 只看该作者

自己改了一下，取消了判断

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

6楼

发表于 2016-8-22 15:15 | 只看该作者

我又厚颜无耻的来了，怎么让这个程序每处理1000个单词就休息一个小时呢？

:dizzy::dizzy:能不能结合批处理呢

TOP

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3041
积分: 5330
技术: 684
捐助: 0
注册时间: 2014-10-19

7楼

发表于 2016-8-22 15:47 | 只看该作者

举个栗子

#每输出两个字母延时2秒
import time
j=0
for i in ['a','b','c','d','e','f','g','h','i','j','k','l','m','n']:
    print i
    j+=1
    if j%2==0:time.sleep(2)
复制代码

TOP

949825667

列兵

Rank: 1

帖子: 4
积分: 16
技术: 0
捐助: 0
注册时间: 2016-8-12

8楼

发表于 2016-8-22 21:18 | 只看该作者

回复 7# pcl_test

多谢版主大人。。。我查了好久解决了，忘记回帖说一下了！阿里嘎多！

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

9楼

发表于 2016-8-23 09:21 | 只看该作者

本帖最后由 523066680 于 2016-8-23 09:26 编辑

有道还是有点？
哦，这个是在线爬取的。

我也做过一个在线查询的，Perl+终端版
http://bbs.bathome.net/thread-36111-1-1.html

有道离线字典拆解思路以及单独制作的查询工具
http://bbs.bathome.net/thread-40665-1-1.html
http://code-by.org/viewtopic.php?f=17&t=12

FuniCode 编程论坛

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

10楼

发表于 2016-8-23 09:49 | 只看该作者

回复 9# 523066680

多谢多谢，请问版主知道怎么用正则匹配带连字符的单词么？比如seven-day

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

11楼

发表于 2016-8-23 10:00 | 只看该作者

回复 10# 949825667@qq.co

好像直接匹配没什么问题啊（perl

$abc = "---[seven-day]---";

$abc =~ /seven-day/;

print $&;
复制代码

seven-day

实在不行在 - 前面加上 \ 咯

$abc = "---[seven-day]---";

$abc =~ /seven\-day/;

print $&;
复制代码

FuniCode 编程论坛

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

12楼

发表于 2016-8-23 10:12 | 只看该作者

回复 11# 523066680

通用型的- -，所有加连字符的单词！不过还是谢谢，暂时不考虑这个问题了！

:victory: :victory:

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[问题求助] 【已解决】想改进一个别人的有点词典的爬取程序，不懂Python

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]