[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
本帖最后由 aloha20200628 于 2024-5-10 13:24 编辑


文件编码转换方法在c/c++/c#/vbs/js/powershell/...都有成熟的功能实现,其中亦可采用非常高效的选项,但在文件编码检测方面目前仍是一个近似解,因此业界称其为‘推测’方法。
已经用过几款专用的文件编码推测工具:
   chardetect.exe 基于Mozilla(火狐浏览器出品商)开源代码,可在python的chardet应用资源中获取
   uchardet.exe 基于Mozilla开源代码,可在 https://github.com/JetDemo/uchardet 下载
   file.exe 属于GNU资源,可在本论坛第三方下载
使用中有一些区别简报如下》
chardetect / file / uchardet 均可排查非文本文件;
chardetect / file 可返回细分信息;
chardetect 对多种常用编码误判率最低,但反应也最慢尤其是对大数据;
file 对中文编码误判率明显。

TOP

本帖最后由 娜美 于 2024-5-12 08:03 编辑

谢谢

TOP


不仅系统命令more,而且powershell的gc/sc方法和[io:file]readAlllines/writeAlllines方法亦可修复源文件中的unix换行符,故重新订正了3楼和10楼代码,不必用more出手马后炮了。以前须烦劳正则替换来用'\r\n'规整文件中的多种换行符,其实极简之道是在命令行上跑一遍more就齐活了...

TOP

本帖最后由 娜美 于 2024-5-13 15:25 编辑

回复 18# aloha20200628

powershell "$s=[io.file]::readalllines('%%~F',[text.encoding]::utf8);[io.file]::appendalllines('allinOne.txt',$s,[text.encoding]::default)"
大哥哥,用这个合并是不是会使内存挤满呢,我偿试制造一个比较大文件试了一下,观察了内存似乎是要挤满的,还弹出红色字体报告,除了这个写法外,还能有其他的替代它没?

TOP

本帖最后由 娜美 于 2024-5-13 10:46 编辑

3楼代码 and 10楼代码一般大文件可以的,,    但较大文件就需要更多内存

这写法会挤满内存哦
  1. powershell "$s=[io.file]::readalllines('%%~F',[text.encoding]::utf8);[io.file]::appendalllines('allinOne.txt',$s,[text.encoding]::default)"
复制代码

TOP

本帖最后由 aloha20200628 于 2024-5-13 12:46 编辑

回复 19# 娜美

网论有说硬件性能 ‘足够’ 即可令ps一口吞下1G大小的文件。
过去议论纯P的用法时,也常说不要碰其大(64M)小(8K)天花板。
小车超载,只能取 ‘细分多次’ 之策了,简单之举,或者改 ‘一次读取’ 为 ‘分行读取’,或者先将大文件按行数切成多个小文件,或者移步国内外专门的ps论坛求经盘道...
总之,都是 ‘时间换空间’ 的不同把戏而已...

TOP

回复 18# aloha20200628


   似乎不用担心MAC/或unix换行符问题,  试过经过Poweshell处理的都会统一变成dos的换行符格式, So, 不需要再more

TOP

本帖最后由 aloha20200628 于 2024-5-13 18:53 编辑

回复 22# 娜美

非也
如果1.txt采用utf-8编码+unix换行符,试试下式吧...
  1. powershell "$s=[io.file]::readalltext('1.txt',[text.encoding]::'utf8');[io.file]::writeAlltext('2.txt',$s,[text.encoding]::'default')"
复制代码
至少用powershell v4是不行滴 ...

TOP

回复 23# aloha20200628


    嗯 确实不行还得要转

TOP

你说的大文件是多大,100M还是1G还是2G

QQ 20147578

TOP

本帖最后由 aloha20200628 于 2024-5-13 22:32 编辑

回复 20# 娜美

‘一次性读写’ 改为 ‘逐行读写’ 方案》以便应付超大数据文件,不过还是采用了powershell中相当高效的[io.file]readLines/streamWriter
基于3楼代码改写如下,再试试吧...
  1. @echo off &setlocal &del /q "allinOne.txt" "bug.txt" 2>nul
  2. for /f "delims=" %%F in (b.txt) do if not exist "%%~F" (echo,"badFile -- %%F"&echo,%%F>>"bug.txt") else (
  3. for /f "tokens=1-2 delims=-" %%a in (' uchardet.exe "%%~F" ') do (
  4. if /i "%%a" neq "unknown" (echo, /// %%~F ///>>"allinOne.txt")
  5. if /i "%%a"=="utf" if "%%b"=="8" (
  6. powershell "$g=[text.encoding]::getEncoding('gb2312');$m=new-object io.streamWriter('allinOne.txt',$true,$g);foreach($l in [io.file]::readLines('%%~F',[text.encoding]::'utf8')){$m.writeLine($l)};$m.close()"
  7. ) else if /i "%%a"=="utf" if "%%b"=="16" (
  8. powershell "$g=[text.encoding]::getEncoding('gb2312');$m=new-object io.streamWriter('allinOne.txt',$true,$g);foreach($l in [io.file]::readLines('%%~F',[text.encoding]::'unicode')){$m.writeLine($l)};$m.close()"
  9. )
  10. if /i "%%a"=="ascii" (
  11. more "%%~F">>"allinOne.txt"
  12. ) else if /i "%%a"=="gb18030" (
  13. more "%%~F">>"allinOne.txt"
  14. ) else if /i "%%a"=="unknown" (
  15. echo,"unknown -- %%F"&echo,%%F>>"bug.txt"
  16. )
  17. )
  18. echo,>>"allinOne.txt"
  19. )
  20. endlocal&pause&exit/b
复制代码

TOP

本帖最后由 娜美 于 2024-5-14 10:09 编辑

回复 26# aloha20200628
  1. powershell "$g=[text.encoding]::getEncoding('gb2312');$m=new-object io.streamWriter('allinOne.txt',$true,$g);foreach($l in [io.file]::readLines('%%~F',[text.encoding]::'utf8')){$m.writeLine($l)};$m.close()"
复制代码
poweshell 逐行读写速度是每秒 4Mb/s 左右。大哥哥 这是不是poweshell最快的写法了 ?

TOP

回复 27# 娜美

用你的各种实例测试比对,即可一目了然了 也许老东家对很容易拖后腿的 ‘逐行读取’ 给予了 ‘特别关照’...

TOP

本帖最后由 娜美 于 2024-5-15 16:22 编辑

回复 28# aloha20200628


   大哥哥写了一个用gc的  单测它可以达到30mb/s


  返回错误,  我是不是变量没写好 ?  请帮看看
  1. @echo off &setlocal &del /q "allinOne.txt" "bug.txt" 2>nul
  2. for /f "delims=" %%F in (b.txt) do if not exist "%%~F" (echo,"badFile -- %%F"&echo,%%F>>"bug.txt") else (
  3. for /f "tokens=1 delims=_" %%a in (' coder.exe -s -a gc -f "%%~F" ') do (
  4. echo, /// %%~F ///>>"allinOne.txt"
  5. if /i "%%a"=="utf-8" (
  6. powershell "$a=gc -readcount 10000000 -enc:UTF8 "%%~F" | ac -enc:default all.tmp"
  7. ) else if /i "%%a"=="utf-16" (
  8. powershell "$a=gc -readcount 10000000 -enc:UTF16 "%%~F" | ac -enc:default all.tmp"
  9. ) else if /i "%%a"=="ansi" (
  10. powershell "$a=gc -readcount 10000000 -enc:default "%%~F" | ac -enc:default all.tmp"
  11. )
  12. )
  13. echo,>>"allinOne.txt"
  14. )
  15. endlocal&pause&exit/b
复制代码

TOP

回复 29# 娜美

顺便提一句》有人实测过,设置 -readcount 1000 的效果极佳
  1. powershell "gc *.txt -readcount 1000 -enc 'utf8'|ac 'all.tmp'"
复制代码

TOP

返回列表