找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 24041|回复: 2

[文本处理] [已解决]TXT文本去除乱码以及转换成unicode编码

[复制链接]
发表于 2012-8-24 21:19:26 | 显示全部楼层 |阅读模式
本帖最后由 yiduancang 于 2013-10-22 14:25 编辑

一个文件夹下TXT 10多W的TXT文章  编码一般为ANSI   想去除文章中非字母 数字以及标点符号的乱码  以前文章少的时候是用notepad++  用正则[^a-zA-Z0-9,\.:;!\-\s] 替换 现在数量上十万百万级别的了 没办法搞了
几点小细节讲下:
1:BAT 写成拖动文件夹到BAT上面运行
2:包含子目录的去除乱码和编码转换
3:原始编码一般是ANSI 也有时候是UTF8 能否做成设定原始编码 或者直接检测编码?
4:处理后的TXT放在该文件夹所在盘根目录(比如文件是在D盘。。就生成在D盘根目录)下生成新文件夹 名称就以乱码处理+原文件名


其实比较担心百万级别的数量 BAT对付不了。。。以前经常出现处理到一半挂掉整个数据都没  所以第4点特别重要啊  不知道能写出来不。。烦恼啊 烦恼。。数量太多。
发表于 2012-8-25 06:20:53 | 显示全部楼层
第四点特别简单。但是处理乱码不知有何思路....
 楼主| 发表于 2012-8-25 09:21:13 | 显示全部楼层
回复 2# canyuexiaolang


    比如类似用正则 [^a-zA-Z0-9,\.:;!\-\s]  这样?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 22:24 , Processed in 0.026296 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表