找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 57463|回复: 15

[文本处理] 【已解决】批处理如何去除html网页中的<>标签?

[复制链接]
发表于 2015-5-11 10:47:48 | 显示全部楼层 |阅读模式
本帖最后由 pcl_test 于 2016-11-24 08:09 编辑

<!DOCTYPE html
        PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
         "http://www.w3.org/TR/html4/loose.dtd">
<html><head><title>LinkDB Search Result: KEGG DGROUP DG00012</title>
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<link type="text/css" rel="stylesheet" href="/css/gn2.css">
<style>pre{font-family:monospace}</style>
</head>
<span style="color:#36c"><b>KEGG DGROUP</b></span>

<a href="/dbget-bin/www_bget?dgG01633">DG01633</a>              CYP3A4 substrate

<span style="color:#36c"><b>ATC</b></span>

事实上,我只需要留下红色部分
希望把红色数据继续再存到DG00012.txt里,该如何实现?
 楼主| 发表于 2015-5-11 10:49:21 | 显示全部楼层
@bailong360
发表于 2015-5-11 11:15:25 | 显示全部楼层
这个,用正则好。
发表于 2015-5-11 11:25:32 | 显示全部楼层
请描述一下规律是什么,比如为何不留下 ATC 呢?
发表于 2015-5-11 13:10:58 | 显示全部楼层
好难折分,提了二组后面的,一组的又丢失
 楼主| 发表于 2015-5-11 15:31:32 | 显示全部楼层
回复 4# gawk


    ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
 楼主| 发表于 2015-5-11 15:31:49 | 显示全部楼层
回复 5# fcxk

ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
 楼主| 发表于 2015-5-11 15:32:15 | 显示全部楼层
回复 3# chromatin2

是~但是这个字符串太大,正则不好用
发表于 2015-5-11 16:53:16 | 显示全部楼层
  1. HtoX32c.exe 1.txt > 2.txt
复制代码
 楼主| 发表于 2015-5-11 21:16:38 | 显示全部楼层
回复 9# gawk

用了之后没反应。。。。。
 楼主| 发表于 2015-5-11 21:17:13 | 显示全部楼层
:'(忧愁。。。
发表于 2015-5-11 21:21:24 | 显示全部楼层
回复 10# sweet惜缘


    我这里测试没问题,你的HtoX32c.exe从哪里下载的?
发表于 2015-5-11 21:23:03 | 显示全部楼层
本帖最后由 pcl_test 于 2015-5-11 22:03 编辑
  1. @if(0)==(0) echo off
  2. ::如果非html格式文件,自行修改代码中的文件后缀名;修改原文件,测试前先备份好原文件
  3. for %%a in (*.html) do (
  4. CScript -NoLogo -E:JScript "%~f0" <"%%a" >"tmp_%%a"
  5. move "tmp_%%a" "%%a"
  6. )
  7. pause & exit
  8. @end
  9. var s = WScript.StdIn.ReadAll().replace(/<[^>]+>/gm,"");
  10. WSH.echo(s);
复制代码
发表于 2015-5-11 22:45:18 | 显示全部楼层
多来几个样本吧,找到规律的话用grep提取也不失为一种办法
 楼主| 发表于 2015-5-12 11:06:20 | 显示全部楼层
回复 14# bailong360

多谢~楼上的方法就行拉~
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 14:19 , Processed in 0.023036 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表