Board logo

标题: [文本处理] htox32c转换htm2txt 汉字乱码 [打印本页]

作者: BAT1    时间: 2011-10-8 17:09     标题: htox32c转换htm2txt 汉字乱码

遇上加了/IP参数还是乱码的怎么办?
htm文件使用记事本打开时是UTF-8编码的。
  1. @echo off
  2. curl -o 123.txt http://www.sge.sh/publish/sge/xqzx/jyxq/index.htm
  3. md htm
  4. pause
  5. title 下载数据文件
  6. set n=0
  7. setlocal enabledelayedexpansion
  8. for /f "delims=><= tokens=4skip=170" %%i in (123.txt) do (
  9. set a=%%i
  10. echo http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
  11. if "!a:~-4,3!"=="htm" set /a n+=1 & echo %%i !n! & curl -o htm\!n!.htm  http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
  12. )
  13. title 转换文件格式
  14. HtoX32c /ip /O0 htm\*.htm
  15. md txt 2>nul
  16. move htm\*.txt txt\>nul
  17. pause
  18. exit
复制代码

作者: wc726842270    时间: 2011-10-8 17:35

这个网站的CHARSET是UTF-8,没什么说的
试一下HtoX32c /i8 /O0 htm\*.htm(HtoX32c,curl我这儿都没有,也懒得下了)
作者: BAT1    时间: 2011-10-8 17:41

回复 2# wc726842270


    换成/i8 也是乱码
作者: wc726842270    时间: 2011-10-8 17:50

呵呵,这个没有做试验,给你个网址也许对你有帮助:
【原创】用批处理+curl+HtoX32c整理中国医药网上的医院名录信息http://bbs.et8.net/bbs/showthread.php?t=1014614
作者: wc726842270    时间: 2011-10-8 18:50

刚才无聊做了一下试验,发现HtoX32c可以将GB2312正常转换(也就是说没有乱码),而LZ所提供的网站是用UTF-8的,所以出现的点问题,有兴趣可以用VBS下载




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2