[已解决]Python处理数据库数据 - Python - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

1楼 跳转到 »

发表于 2015-11-7 16:31 | 显示全部帖子

本帖最后由依山居于 2015-11-12 07:27 编辑

并不明白你的说什么意思。

python是方便的语言。并不是处理速度快。~~大量数量使用readline读入，for 逐行迭代处理。~~
处理大量数据还要打印到输出，还要交互确认？。不慢才见鬼了。

修正一下，经过我在另的帖子中生成的数据来测试，几百M的文件不算大文件。只要内存不会爆掉，应该都一次读入内存处理。
逐行读，处理，逐行写，这样的顺序可能会很慢。

这个问题本质也是个文本格式化。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

2楼

发表于 2015-11-7 19:36 | 显示全部帖子

回复 3# winbat

想不想写的问题而已。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

3楼

发表于 2015-11-7 21:05 | 显示全部帖子

回复 5# pcl_test

楼主说的数量挺大的吧？版主你的代码都是一次读入处理后再写入文件的吗？

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

4楼

发表于 2015-11-8 01:51 | 显示全部帖子

回复 10# 523066680

我一直有囤有各种资料。但是就是不看。。。十年间几乎没有完整看过一本书，没有任何进步。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

5楼

发表于 2015-11-8 16:31 | 显示全部帖子

本帖最后由依山居于 2015-11-13 22:36 编辑

不小心生成了6百万行数据测试了下。这里的代码大约需要1020秒。将近17分钟。

#python重复行数合并文件
#题目来源: http://www.bathome.net/viewthread.php?tid=38017
#依山居 4:22 2015/11/8

#相关资料 Python按行读文件：
#http://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html

#相关资料 Python迭代器和生成器：
#http://python.jobbole.com/81881/

#python3 生成器
#http://t.cn/R2GTPBY

#Python关键字yield的解释
#http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html

#探寻Python中如何同时迭代多个iterable对象
#http://blog.csdn.net/kxcfzyk/article/details/41380017

#以下三个函数逐行读取对应文件,n为默认重复次数。
def txta(txta="a.txt",n=6):
    with open(txta) as fa:
        for la in fa:
            la=la.rstrip()+","
            for r in range(n):
                yield la
        
def txtb(txtb="b.txt",n=3):
    with open(txtb) as fb:
        for lb in fb:
            lb=lb.rstrip()+","
            for r in range(n):
                yield lb

def txtc(txt="c.txt",n=1):
    with open(txt) as f:
        for l in f:
            l=l.rstrip()+"\n"
            for r in range(n):
                yield l

def merge(a,b,c,txt="test.txt"):
    with open(txt,"a+") as f:
        f.write(a+b+c)
        #f.flush()
        
bt=txtb()
at=txta()
for c in txtc():
    b=next(bt)
    a=next(at)
    merge(a,b,c)

try:
    input("执行完成,按回车退出")
except SyntaxError:
    pass
复制代码

1 评分人数

winbat: 非常感觉！技术 + 1

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

6楼

发表于 2015-11-9 03:03 | 显示全部帖子

本帖最后由依山居于 2015-11-9 03:56 编辑

提升处理速度的办法是原文件拆分成多个任务，同时启动多个脚本分别处理。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

7楼

发表于 2015-11-10 19:18 | 显示全部帖子

回复 14# winbat

不是。这是这最简单的办法。以及由于python的GIL ，好像写多线程比较麻烦。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

8楼

发表于 2015-11-13 21:40 | 显示全部帖子

"""
生成测试数据
依山居 19:46 2015/11/13
python列表解析真好玩~
"""
import time
start=time.time()

an=1
bn=3
cn=6
x=1000000
al=["%012d\n" % r for r in range(an*x)]
bl=["%012d\n" % r for r in range(bn*x)]
end=time.time()
pt=end-start
print("运行耗时1：",pt)
cl=["%012d\n" % r for r in range(cn*x)]
end=time.time()
pt=end-start
print("运行耗时2：",pt)

atxt=open("aa.txt","w+")
atxt.writelines(al)
atxt.close()

btxt=open("bb.txt","w+")
btxt.writelines(bl)
btxt.close()

end=time.time()
pt=end-start
print("运行耗时3：",pt)

ctxt=open("cc.txt","w+")
ctxt.writelines(cl)
ctxt.close()

end=time.time()
pt=end-start
print("运行耗时：",pt)

try:
    input("按回车退出")
except SyntaxError:
    pass
复制代码

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

9楼

发表于 2015-11-14 01:03 | 显示全部帖子

"""
每行数据重复N次合并生成新文件
依山居 0:54 2015/11/14
太困了,回头再改，6百万行，大约17秒。。。
非常流氓地使用了sorted排序数据。实际数据中估计不能使用.
"""

import time
start=time.time()

an=6
with open("aa.txt") as f:
    ta=f.read()
    ta=ta.rsplit()
    al=[(r+",") for r in ta]*an
    al=sorted(al)
print(len(al))   
bn=3
with open("bb.txt") as f:
    tb=f.read()
    tb=tb.rsplit()
    bl=[(r+",") for r in tb]*bn
    bl=sorted(bl)
    
print(len(bl))    
cn=1
with open("cc.txt") as f:
    tc=f.read()
    tc=tc.rsplit()
    cl=[r+"\n" for r in tc]
print(len(cl))
end=time.time()
pt=end-start
print("运行耗时：",pt)

rn=len(cl)
tal=[]
for r in range(rn):
    tal.append(al[r]+bl[r]+cl[r])
    
end=time.time()
pt=end-start
print("运行耗时：",pt)

with open("out.txt","w+") as f:
    f.writelines(tal)
    f.close()
    
end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
    input("按回车退出")
except SyntaxError:
    pass
复制代码

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

10楼

发表于 2015-11-14 12:50 | 显示全部帖子

"""
每行数据重复N次合并生成新文件
题目来源 http://www.bathome.net/thread-38017-2-1.html
依山居 0:54 2015/11/14
这个版本可以使用来处理实际数据。。。6百万行，大约17秒。。。
总结：几百万行数据真不算多。不需要逐行读取处理。python列表解析是个好东西~

使用重复列表中元素更好的方法 http://www.oschina.net/question/96078_2141454
python笔记_列表解析 http://www.jianshu.com/p/c635d3c798c2
"""

import time
start=time.time()

an=6
with open("aa.txt") as f:
    ta=f.read()
    ta=ta.rsplit()
    al=[r+"," for r in ta for i in range(an)]
print("al长度:",len(al))

bn=3
with open("bb.txt") as f:
    tb=f.read()
    tb=tb.rsplit()
    bl=[r+"," for r in tb for i in range(bn)]
print("bl长度:",len(bl))

cn=1
with open("cc.txt") as f:
    tc=f.read()
    tc=tc.rsplit()
    cl=[r+"\n" for r in tc for i in range(cn)]
print("cl长度:",len(cl))

end=time.time()
pt=end-start
print("运行耗时：",pt)

rn=len(cl)
tal=[al[r]+bl[r]+cl[r] for r in range(rn)]
#还是用列表解析好~
#for r in range(rn):
#   tal.append(al[r]+bl[r]+cl[r])
    
end=time.time()
pt=end-start
print("运行耗时：",pt)

with open("out.txt","w+") as f:
    f.writelines(tal)
    f.close()
    
end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
    input("按回车退出")
except SyntaxError:
    pass
复制代码

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]