文本显示、行显、日志跟随监控工具TL.EXE

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

27楼

发表于 2016-10-25 08:11 | 只看该作者

本帖最后由 523066680 于 2016-10-25 09:48 编辑

Perl和Python都是有直接的库可以检测，已经被脚本语言惯坏了，所以重看楼主C代码的时候觉得，良心制作。

不过，考虑到传入的文件名符号可能是Unicode的（比如拖放到终端），可以试试用 _tmain 或者 wmain
用了之后有些输入输出函数、参数要跟着加前缀

FuniCode 编程论坛

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

26楼

发表于 2016-10-25 06:21 | 只看该作者

先赞一个吧

判定一个人是否为伸手党的标准是取决于他的态度和诚意。

http://www.bathome.net/viewthread.php?tid=39824

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18831
技术: 978
捐助: 100
注册时间: 2010-10-9

25楼

发表于 2016-10-25 00:41 | 只看该作者

回复 24# wskwfkbdn

神器1：http://www.bathome.net/s/tool/index.html?key=enca
神器2：http://www.bathome.net/s/tool/index.html?key=file

或 mshta：

mshta http://bathome.net/s/hta/?string "t=iconv.load('a.html');list.charset().where(function(c){return iconv.toStr(t,c)})"|more
复制代码

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

24楼

发表于 2016-10-24 22:32 | 只看该作者

回复 23# 523066680

对，忽略bom头识别，

判定一个人是否为伸手党的标准是取决于他的态度和诚意。

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

23楼

发表于 2016-10-24 21:53 | 只看该作者

本帖最后由 523066680 于 2016-10-24 22:24 编辑

回复 22# wskwfkbdn

所以…… 这个工具是你写的，在LE 和 BE这件事情上，识别效率和准确率比通过 00 0d , d0 00; 00 0a / 0a 00辨别更高？？

FuniCode 编程论坛

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

22楼

发表于 2016-10-24 21:41 | 只看该作者

本帖最后由 wskwfkbdn 于 2016-10-24 21:49 编辑

回复 21# 523066680

编码检测工具下载：图片另存为，改rar解压

判定一个人是否为伸手党的标准是取决于他的态度和诚意。

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

21楼

发表于 2016-10-24 20:56 | 只看该作者

本帖最后由 523066680 于 2016-10-24 21:27 编辑

回复 20# wskwfkbdn

？我没有提供哪个方法，是觉得楼主以00 0d 或者 0d 00作为辨别是还可以的方案啊。
（就是说即使这个方法效率低，好吧，那不是我提出来的

然后从17楼看感觉可能频道不对，前面讨论 LE 和 BE 的辨别，为何涉及到GBK ？

前面gbk，utf8，测试识别还是准确的，识别unicode编码也就不难了，如果先进程编码转换 unicode转gbk编码，以gbk方法识别正确则认定是unicode编码

假设上面是在说LE 和 BE的辨别，我觉得，如果以转GBK再转unicode对比作为辨别，会有两个问题：
1. GBK的范围没有 UTF 这么广泛
2. 有些数据，既可以按大端序解读为Unicode再转GBK，也可以按小端序解读为Unicode再转GBK，他们看上去都是正常的字符或者汉字，这个时候怎么辨别LE 还是 BE?

use Encode;

binmode(STDOUT, ":encoding(gbk)");  #输出时统一转为gbk

print  decode('gbk', "\xf9\x7a");
print  decode('utf16-le', "\xf9\x7a");
print  decode('utf16-be', "\xf9\x7a");
复制代码

输出
鵽竹梁

FuniCode 编程论坛

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

20楼

发表于 2016-10-24 20:37 | 只看该作者

回复 19# 523066680

真的好吗？这方法我实验过，效率慢且不同编码有些字符集是相同的，会误判。

判定一个人是否为伸手党的标准是取决于他的态度和诚意。

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

19楼

发表于 2016-10-24 20:15 | 只看该作者

本帖最后由 523066680 于 2016-10-24 20:16 编辑

再来一点，同样的字节值，可以按不同编码解读为不同的汉字/偏僻字

gbk:
鵃鵄鵅鵆鵇鵈鵉鵊鵋鵌鵍鵎鵏鵑鵒鵓鵔鵕鵖鵗鵘鵙鵚鵛鵜鵝鵞鵟鵠鵡鵢鵣鵤鵥鵦鵧鵨鵩鵪鵫鵬鵭鵮鵯鵰鵱鵲鵳鵴鵵鵶鵷鵸鵹鵺鵻鵼鵽鵾鵿鶀鶁

utf16-le:
䃹䇹䋹䏹䓹䗹䛹䟹䣹䧹䫹䯹䳹仹俹價凹勹叹哹嗹囹培壹姹嫹对峹巹廹忹惹懹拹揹擹旹曹柹棹槹櫹毹泹淹滹濹烹燹狹珹瓹痹盹矹磹秹竹篹糹緹绹

utf16-be:
鹿論壟弄籠聾牢磊賂雷壘屢樓漏累縷陋勒肋凜凌稜綾菱陵讀拏樂諾丹寧怒率異北磻便復不泌數索參塞省葉說殺辰沈拾若掠略亮兩凉梁糧良諒量

big5:
纘纛纙臠臡虆虇虈襹襺襼襻觿讙躥躤躣鑮鑭鑯鑱鑳靉顲饟鱨鱮鱭鸋鸍鸐鸏鸒鸑麡黵鼉齇齸齻齺齹圞灦籯蠼趲躦釃鑴鑸鑶鑵驠鱴鱳鱱鱵鸔鸓黶鼊
复制代码

FuniCode 编程论坛

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

18楼

发表于 2016-10-24 17:23 | 只看该作者

utf16-be utf16-le
其中有一些把字节反过来可以成为另一种编码解读的对应字符，列出一些常见字符的部分

0034 - 4,  3400 - 㐀
0035 - 5,  3500 - 㔀
0036 - 6,  3600 - 㘀
0037 - 7,  3700 - 㜀
0038 - 8,  3800 - 㠀
0039 - 9,  3900 - 㤀
003A - :,  3A00 - 㨀
003B - ;,  3B00 - 㬀
003C - <,  3C00 - 㰀
003D - =,  3D00 - 㴀
003E - >,  3E00 - 㸀
003F - ?,  3F00 - 㼀
0040 - @,  4000 - 䀀
0041 - A,  4100 - 䄀
0042 - B,  4200 - 䈀
0043 - C,  4300 - 䌀
0044 - D,  4400 - 䐀
0045 - E,  4500 - 䔀
0046 - F,  4600 - 䘀
0047 - G,  4700 - 䜀
0048 - H,  4800 - 䠀
0049 - I,  4900 - 䤀
004A - J,  4A00 - 䨀
004B - K,  4B00 - 䬀
004C - L,  4C00 - 䰀
004D - M,  4D00 - 䴀
004E - N,  4E00 - 一
004F - O,  4F00 - 伀
0050 - P,  5000 - 倀
0051 - Q,  5100 - 儀
0052 - R,  5200 - 刀
0053 - S,  5300 - 匀
0054 - T,  5400 - 吀
0055 - U,  5500 - 唀
0056 - V,  5600 - 嘀
0057 - W,  5700 - 圀
0058 - X,  5800 - 堀
0059 - Y,  5900 - 夀
005A - Z,  5A00 - 娀
005B - [,  5B00 - 嬀
005C - \,  5C00 - 尀
005D - ],  5D00 - 崀
005E - ^,  5E00 - 帀
005F - _,  5F00 - 开
0060 - `,  6000 - 怀
0061 - a,  6100 - 愀
0062 - b,  6200 - 戀
0063 - c,  6300 - 挀
0064 - d,  6400 - 搀
0065 - e,  6500 - 攀
0066 - f,  6600 - 昀
0067 - g,  6700 - 最
0068 - h,  6800 - 栀
0069 - i,  6900 - 椀
006A - j,  6A00 - 樀
006B - k,  6B00 - 欀
006C - l,  6C00 - 氀
006D - m,  6D00 - 洀
006E - n,  6E00 - 渀
006F - o,  6F00 - 漀
0070 - p,  7000 - 瀀
0071 - q,  7100 - 焀
0072 - r,  7200 - 爀
0073 - s,  7300 - 猀
0074 - t,  7400 - 琀
0075 - u,  7500 - 甀
0076 - v,  7600 - 瘀
0077 - w,  7700 - 眀
0078 - x,  7800 - 砀
0079 - y,  7900 - 礀
007A - z,  7A00 - 稀
007B - {,  7B00 - 笀
007C - |,  7C00 - 簀
007D - },  7D00 - 紀
复制代码

[attach]10209[/attach] 附件

附件用sublime text打开，默认显示16进制码，可以手动用utf-16le格式查看，也可以用utf-16be格式查看，文字显示是反过来的

不过好在 000d 和 000a 就没有这个调换字节后相当于另一个常见字符的问题，而且本身比较常见，无BOM的情况下，我觉得以此为判断已经是比较好的办法。

FuniCode 编程论坛

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

17楼

发表于 2016-10-24 17:21 | 只看该作者

回复 16# 523066680

前面gbk，utf8，测试识别还是准确的，识别unicode编码也就不难了，如果先进程编码转换 unicode转gbk编码，以gbk方法识别正确则认定是unicode编码

判定一个人是否为伸手党的标准是取决于他的态度和诚意。

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

16楼

发表于 2016-10-24 15:58 | 只看该作者

回复 15# wskwfkbdn

如果取样素材及其有限，我想一些主流文本编辑器也只能选择显示16进制码。用户得自己选择采用哪种编码浏览

FuniCode 编程论坛

Rank: 4

帖子: 247
积分: 341
技术: 15
捐助: 0
注册时间: 2012-9-21

15楼

发表于 2016-10-24 11:55 | 只看该作者

回复 13# happy886rr

0D 00 0A 00
如果没有呢，就不好判断了吧

判定一个人是否为伸手党的标准是取决于他的态度和诚意。