[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理调用curl和htox32c抓一个网页为何乱码?

stockq.cn
目的就是下载里面的文本,相当于打开ie,ctrl+c 然后ctrl+v ,然后保存到记事本的效果
我抓取后,还需要用vim来处理,但是发现记事本打开没问题,vim打开是乱码

本帖最后由 tmplinshi 于 2011-4-7 16:50 编辑

把文本转换成 GBK 编码:
  1. ConCmd.exe /o:gbk stockq.cn.txt
复制代码

TOP

谢谢,太强大了

TOP

之前说错了。
之前说是由于文本没有 BOM,刚才我测试了用 vim 打开有 BOM 的 UTF-8 文件也是乱码。

TOP

.\curl\curl stockq.cn|.\iconv\iconv  -f utf-8 -t gb18030 >stockq.html
.\HtoX32c\HtoX32c.exe  /Ip /L1 /A1 /F1 /D0 stockq.html>stockq.txt

我后来这样处理了
1

评分人数

TOP

5# lilarcor


学习了。以前没用过 GB18030 字符集。一直用 GBK,用 GBK 经常会出现错误提示“iconv: (stdin): cannot convert”。

Google 搜索了下 GB18030 的介绍:
GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。本文数一数GB18030中的汉字,也顺便看看其它标准中的汉字。

TOP

返回列表