python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py

依山居 · 发表于 2015-11-24 18:41:44

"""
python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py
题目来源 http://www.bathome.net/thread-38164-1-1.html
依山居 17:47 2015/11/24
这个解决思路在脑子里绕了好几天~找到\n也就是换行符，同时切出它的下一位不为"号的字符。
也就是不以引号开头行的第一个字。然后再替换掉\n
感觉这个处理方法,不需要正则表达式可靠性也很高。
"""
import time
start=time.time()
print("运行中..."*3)
with open("a.txt") as f:
txt=f.read()
#增加字符长度,取\n的下一位字符时就不用担心和考虑越界的问题
txt=txt+"###"
rn=len(txt)
#找到\n也就是换行符，同时切取出它的下一位不为"号的字符。
rs=[txt[r]+txt[r+1] for r in range(rn-3) if ("\n" in txt[r]) and ('\"' not in txt[r+1])]
#rs=['\n2', '\n5', '\n2', '\n3'...]
for r in rs:
#设r为\n3,替换为r[1]也就是换为3，相当于删掉了\n。这个不以引开头的行就能与上行连接了。
txt=txt.replace(r,r[1])
txt=txt.rstrip("###")+"\n"
with open("aa.txt","w+") as f:
f.write(txt)
end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
input("按回车退出")
except SyntaxError:
pass

复制代码

依山居 · 发表于 2015-11-24 20:14:02

败了。逐个字符扫描太慢了。
用以下代码生成3百M的测试文件，久久没完成。

"""
生成测试数据
依山居 20:01 2015/11/24
"""
import time
start=time.time()
print("运行中..."*3)
a=""""1","1
2","123","","201
5-10-31",
"1","1
2","12
3","","",
"1","12","123","123
4"
"A","AB","ABC","ABCD"
"R","RS","RS
T","RSTU"
"E","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"d","EF","EFG","EFGH
xxx"
"f","EF","EFG","EFGH
13:05 2015/11/17"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"""
b=a*1000000
with open("a.txt","w") as f:
f.write(b)
end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
input("按回车退出")
except SyntaxError:
pass

复制代码

依山居 · 发表于 2015-11-25 01:58:16

测试总结:
与直觉相反，并不是逐字扫描慢，而是在进行迭代replace慢。非常非常非常非常慢~
经测试慢在这个部分，测试生成测试文件3M 三百万个字符。8万个字符需要替换，需要180秒才能完成替换:
for r in rs:
txt=txt.replace(r,r[1])
所以大量的字符替换不能使用这个方法。

依山居 · 发表于 2015-11-28 23:34:44

新代码

"""
python列表切片处理DEL文件断行.py
这版的代码是之前列表切片版的改进，目的是把DEL文件中不以引号开头的行与上一行连接
下一行不以引号开头则清除行后的空白字符，包括\n，在写入的时候就自动与上一行连接了。
http://www.bathome.net/thread-38164-1-1.html
"""
import time
start=time.time()
print("运行中..."*3)
txt=[]
with open("a.txt") as f:
txt=f.readlines()
end=time.time()
pt=end-start
print("readlines运行耗时：",pt)
ln=len(txt)
print("需要处理的文件行数：",ln)
end=time.time()
pt=end-start
print("len(txt)运行耗时：",pt)
#为了防指针越界，所以rn需要减1
#flines=[txt[r] if ('\"' in txt[r+1][0]) else txt[r].rstrip() for r in range(ln-1)]
#与上一行等效写法
flines=[txt[r] if (txt[r+1].startswith('\"')) else txt[r].rstrip() for r in range(ln-1)]
end=time.time()
pt=end-start
print("flines运行耗时：",pt)
with open("out.txt","w+") as f:
f.writelines(flines)
#补上最后一行
f.write(txt[-1])
f.close()
txt[:]=[]
flines[:]=[]
end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
input("按回车退出")
except SyntaxError:
pass
"""
测试结果，列表切片和模式匹配处理速度相当，670M的文本，大约60-70秒左右，
包括写入时间,算出处理速度大约是每秒处理10M左右。
实际发现内存占用峰值会高出好几倍，python 进程会短时占用好几个G内存的情况。
"""

复制代码

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[原创代码] python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py

评分

浏览过的版块