[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决]如何批处理html转换为txt主要是要去除html里面的标签源码

本意是用来整理下载的小说
大家见笑了
主要是因为下载的小说是html格式里面的标签源码太多
想删掉里面html的标签,这样阅读起来才比较方便!
同时除了删除必要的html标签源码之外,原来html文章里面的一些网址是否也可以指定删除掉呢因为明显是广告啊!
谢谢大家
谢谢那个工具!
谢谢bat论坛
谢谢tmplinshi斑竹
1

评分人数

    • tmplinshi: 感谢给帖子标题标注[已解决]字样PB + 2

提供个链接或范本
寂寞是黑白的,但黑白不是寂寞,是永恒。BAT 需要的不是可能,而是智慧。

TOP

把网页文件转换为纯文本的工具HtoX32c
http://www.bathome.net/thread-1974-1-1.html
1

评分人数

TOP

回复 3# tmplinshi


    提示

错误:不能打开文件 →.html

请问应该将这个HtoX32c.exe放在哪里呢?
然后在cmd里面输入需要具体路径吗?否则怎么知道转换哪里的html呢
比如我html放在d:\a\文件夹里面

TOP

转换一个文件:
  1. HtoX32c.exe /Ip /O0 d:\a\a.html
复制代码
转换所有文件:
  1. HtoX32c.exe /Ip /O0 d:\a\*.html
复制代码
转换后的 txt 在 html 所在目录。

TOP

本帖最后由 CrLf 于 2012-11-20 19:38 编辑

不想用第三方的话,也可以用 vbs 或 js:
  1. @echo off
  2. more +4 %0>innertext.vbs
  3. for %%a in (*.htm) do cscript /nologo innertext.vbs "%%~fa">"%%a.txt"
  4. pause&exit
  5. set ie = GetObject(WScript.Arguments(0), "htmlfile")
  6. Do Until ie.readyState="complete" : WScript.Sleep 1 : Loop
  7. WScript.echo ie.documentelement.innertext
复制代码
1

评分人数

TOP

回复 6# CrLf


   
e:\我的文档\桌面\innertext.vbs(2, 1) (null): 灾难性故障

请按任意键继续. . .

TOP

回复 7# tmplinshi


    没注意 getobject 不支持相对路径,已修改

TOP

返回列表