Rank: 2

帖子: 28
积分: 120
技术: 0
捐助: 0
注册时间: 2009-3-12

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2017-12-10 05:09 | 只看该作者

[文本处理] 如何统计TXT文档中所有字母、数字和符号出现的次数

本帖最后由 dragon631 于 2017-12-10 05:11 编辑

“a.txt”文档中存入了如下内容:
UTL-17JFO-9840-UTL-17JFO-9841
UTL-17JFO-9841-UTL-17JFO-9842
UTL-17JFO-9842-UTL-17JFO-9843
UTL-17JFO-9843-UTL-17JFO-9844
UTL-17JFO-9843-UTL-17JFO-9845
UTL-17JFO-9844-UTL-17JFO-9845
UTL-17JFO-9845-UTL-17JFO-9846
UTL-17JFO-9846-UTL-17JFO-9847
UTL-17JFO-9847-UTL-17JFO-9848
UTL-17JFO-9848-UTL-17JFO-9849
UTL-17JFO-9849-UTL-17JFO-9850
UTL-17JFO-9850-UTL-17JFO-9851
UTL-17JFO-9851-UTL-17JFO-9852
UTL-17JFO-9852-UTL-17JFO-9853
UTL-17JFO-9853-UTL-17JFO-9854
UTL-17JFO-9854-UTL-17JFO-9855
UTL-17JFO-9855-UTL-17JFO-9856
UTL-17JFO-9856-UTL-17JFO-9857
UTL-17JFO-9857-UTL-17JFO-9858
UTL-17JFO-9858-UTL-17JFO-9859
UTL-17JFO-9859-UTL-17JFO-9860
UTL-17JFO-9860-UTL-17JFO-9861
UTL-17JFO-9861-UTL-17JFO-9862
UTL-17JFO-9862-UTL-17JFO-9863
UTL-17JFO-9863-UTL17-JFO-9864
UTL-17JFO-9863-UTL-17JFO-9864
UTL-17JFO-9864-UTL-17JFO-9865
UTL-17JFO-9865-UTL-17JFO-9866
UTL-17JFO-9866-UTL-17JFO-9867
UTL-17JFO-9866-UTL-17JFO-9967
UTL-17JFO-9867-UTL-17JFO-9868
UTL-17JFO-9868-UTL-17ODF-(1)17MX003
UTL-17ODF-(2-17MX003-UTL-17JFO-9869
UTL-17ODF-(2)17MX003-UTL-17JFO-9869
UTL-17JFO-9869-UTL-17JFO-9870
UTL-17JFO-9870-UTL-17JFO-9871
UTL-17JFO-9871-UTL-17JFO-9872
UTL-17JFO-9872-UTL-17JFO-9873
UTL-17JFO-9873-UTL-17JFO-9874
UTL-17JFO-9874-UTL-17JFO-9875
UTL-17JFO-9874-UTL-17JFO-9874
UTL-17JFO-9875-UTL-17JFO-9876
UTL-17JFO-9876-UTL-17JFO-9877
UTL-17JFO-9877-UTL-17JFO-9878
UTL-17JFO-9878-UTL-17JFO-9879
UTL-17JFO-9879-UTL-17JFO-9880
UTL-17JFO-9880-UTL-17JFO-9881
UTL-17JFO-9881-UTL-17JFO-9882
UTL-17JFO-9882-UTL-17JFO-9883
UTL-17JFO-9883-UTL-17JFO-9884
UTL-17JFO-9884-UTL-17JFO-9885
UTL-17JFO-9885-UTL-17JFO-9886
UTL-17JFO-9886-UTL-17JFO-9887
UTL-17JFO-9887-UTL-17ODF (1) Lumbala

想批量统计所有字母、数字和符号出现的次数【U、T、L、-、(、)、0、1、2……】:
U:108
T:108
L:109
(:4
┆
请问如何得到这样的结果？

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

2楼

发表于 2017-12-10 10:29 | 只看该作者

本帖最后由 ivor 于 2017-12-10 15:03 编辑

回复 1# dragon631

# -*- coding:utf-8 -*-
# python 3.x
# search ascii code
import re, sre_constants

patter = [chr(i) for i in range(33,126)]

with open("a.txt","r") as file:
    content = file.read()
    for i in patter:
        try:
            result = len(re.findall(r"[%s]" % i,content))
        except sre_constants.error:
            result = len(re.findall(r"[\%s]" % i,content))
        if result != 0:
            print("%s:%d" % (i, result)) 
复制代码

101M文本处理平均速度10.670418739318848秒

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

dragon631

一级士官

Rank: 2

帖子: 28
积分: 120
技术: 0
捐助: 0
注册时间: 2009-3-12

3楼

发表于 2017-12-10 14:46 | 只看该作者

回复 2# ivor

运行这个批处理，没得到什么结果？

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

4楼

发表于 2017-12-10 15:09 | 只看该作者

回复 3# dragon631

需要安装Python 3运行，代码已更新，解决了特殊字符的问题

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18831
技术: 978
捐助: 100
注册时间: 2010-10-9

5楼

发表于 2017-12-10 15:31 | 只看该作者

命令行js：

mshta http://bathome.net/s/hta/index.html map={};type('a.txt').replace(/./g,function(c){map[c]=map[c]?map[c]+1:0});JSON.stringify(map)
复制代码

grep + uniq：

grep -o . a.txt | sort| uniq -c
复制代码

PowerShell：

[char[]] [string] (type a.txt) | group
复制代码

2 评分人数

codegay: 1技术 + 1
ivor: 精简技术 + 1

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

6楼

发表于 2017-12-10 23:37 | 只看该作者

本帖最后由 codegay 于 2017-12-11 00:16 编辑

# -*- coding: utf-8 -*-
"""
Created on Sun Dec 10 23:28:33 2017
@author: codegay
python3 & 编辑器 == spyder
"""

with open("a.txt") as f:
    txt = f.read()
    #剔除不想统计的字符如回车，括号
    char = list(set([r for r in txt if r not in """\n()（）"""]))
    result = {r: txt.count(r) for r in char}
    # 排序
    result = sorted(result.items(), key=lambda d: d[1], reverse=True)

from pprint import pprint
pprint(result)

"""
[('-', 270),
 ('7', 144),
 ('8', 127),
 ('1', 123),
 ('9', 114),
 ('L', 109),
 ('O', 108),
 ('T', 108),
 ('F', 108),
 ('U', 108),
 ('J', 104),
 ('6', 36),
 ('4', 34),
 ('5', 31),
 ('3', 15),
 ('0', 15),
 ('2', 12),
 ('D', 4),
 ('M', 3),
 ('X', 3),
 (' ', 2),
 ('a', 2),
 ('u', 1),
 ('b', 1),
 ('l', 1),
 ('m', 1)]
"""
加了个排序。
复制代码

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

7楼

发表于 2017-12-11 02:05 | 只看该作者

from collections import Counter
from pprint import pprint

def charlist(txtfile):
    with open(txtfile) as f:
        txt = [r for r in f.read() if r not in """\n() """]
        return txt

pprint(Counter(charlist('a.txt')))

'''
Counter({'-': 270,
         '7': 144,
         '8': 127,
         '1': 123,
         '9': 114,
         'L': 109,
         'O': 108,
         'T': 108,
         'F': 108,
         'U': 108,
         'J': 104,
         '6': 36,
         '4': 34,
         '5': 31,
         '3': 15,
         '0': 15,
         '2': 12,
         'D': 4,
         'M': 3,
         'X': 3,
         'a': 2,
         'u': 1,
         'b': 1,
         'l': 1,
         'm': 1})
    '''
复制代码

这个方法用了python 的标准库 collections里的函数。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

8楼

发表于 2017-12-11 03:38 | 只看该作者

nim语言的版本，感觉也还行。主要是用了标准库中的CountTable，代码量不算太多。

import tables

var result = initCountTable[char]()

for line in lines "a.txt":
    for c in line:
        result.inc c
# 对统计结果排序
sort result

for k,v in pairs result:
    echo k,": ",v
复制代码

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 如何统计TXT文档中所有字母、数字和符号出现的次数

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]