找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 26887|回复: 6

[文本处理] (已解决)网页文件 一行内容 提取图片地址 不需要重复的

[复制链接]
发表于 2018-1-18 16:00:45 | 显示全部楼层 |阅读模式
本帖最后由 web 于 2018-1-19 13:57 编辑

<p style="padding: 0px; line-height: 1.5; clear: both; color: rgb(51, 51, 51); font-family: &quot;Hiragino Sans GB&quot;, Tahoma, Arial, 宋体, sans-serif;"><img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_9480.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_9480.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_5111.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_5111.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_4181.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_4181.jpg" /><br /> <br /> <br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_8536.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_8536.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_2145.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_2145.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_4315.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_4315.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_5113.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_5113.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_7621.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_7621.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_2878.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_2878.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_9000.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_9000.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_605.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_605.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_8239.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_8239.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_5145.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_5145.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_3003.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_3003.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_6521.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_6521.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_9915.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_9915.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_2703.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_2703.jpg" /><br /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123757_1357.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123757_1357.jpg" /></p>





<p><img src="/upload/files/2017/08/20/1503223004634.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223004634.jpg" height="1311" width="740" /><img src="/upload/files/2017/08/20/1503223032210.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223032210.jpg" height="9860" width="740" /><img src="/upload/files/2017/08/20/1503223054641.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223054641.jpg" height="5919" width="740" /></p>



2段文件都是只有一行  取共同的方法
网页文件  提取图片地址  不需要重复的  不需要引号
发表于 2018-1-18 19:38:26 | 显示全部楼层
  1. use Mojo::DOM;
  2. use File::Slurp;

  3. my $html = read_file( "a.htm" );
  4. my $dom = Mojo::DOM->new( $html );

  5. grep { print $_->attr("data-original"), "\n" } ( $dom->find("img")->each  );
复制代码
/upload/externalpic/1214218/1214218_20170827123754_9480.jpg
/upload/externalpic/1214218/1214218_20170827123754_5111.jpg
/upload/externalpic/1214218/1214218_20170827123754_4181.jpg
/upload/externalpic/1214218/1214218_20170827123754_8536.jpg
/upload/externalpic/1214218/1214218_20170827123754_2145.jpg
/upload/externalpic/1214218/1214218_20170827123754_4315.jpg
/upload/externalpic/1214218/1214218_20170827123755_5113.jpg
/upload/externalpic/1214218/1214218_20170827123755_7621.jpg
/upload/externalpic/1214218/1214218_20170827123755_2878.jpg
/upload/externalpic/1214218/1214218_20170827123755_9000.jpg
/upload/externalpic/1214218/1214218_20170827123755_605.jpg
/upload/externalpic/1214218/1214218_20170827123755_8239.jpg
/upload/externalpic/1214218/1214218_20170827123756_5145.jpg
/upload/externalpic/1214218/1214218_20170827123756_3003.jpg
/upload/externalpic/1214218/1214218_20170827123756_6521.jpg
/upload/externalpic/1214218/1214218_20170827123756_9915.jpg
/upload/externalpic/1214218/1214218_20170827123756_2703.jpg
/upload/externalpic/1214218/1214218_20170827123757_1357.jpg
/upload/files/2017/08/20/1503223004634.jpg
/upload/files/2017/08/20/1503223032210.jpg
/upload/files/2017/08/20/1503223054641.jpg

评分

参与人数 1技术 +1 收起 理由
web + 1 乐于助人

查看全部评分

发表于 2018-1-19 10:00:18 | 显示全部楼层
本帖最后由 slore 于 2018-1-19 10:01 编辑

extractimg.rb (ruby)
  1. puts File.read('a.html').scan(/\/upload[^.]+\.jpg/).uniq
复制代码
代码解释:读取文件,扫码获取jpg文件的正则表达式匹配,再利用数组的uniq(唯一)方法,去掉重复匹配。

评分

参与人数 2PB +6 技术 +1 收起 理由
web + 1 乐于助人
523066680 + 6 good

查看全部评分

 楼主| 发表于 2018-1-19 10:50:49 | 显示全部楼层
谢谢 各位的回复   有没有批处理 或者批处理使用第三方的方法  其他语言还不会使用 麻烦了
发表于 2018-1-19 13:17:31 | 显示全部楼层
本帖最后由 WHY 于 2018-1-20 19:55 编辑
  1. @echo off
  2. PowerShell -c "[string]$s=type a.html;[regex]::Matches($s,'(?<=src=")[^^"]+')|%%{$_.Value}"
  3. pause
复制代码

评分

参与人数 1技术 +1 收起 理由
web + 1 乐于助人

查看全部评分

 楼主| 发表于 2018-1-19 13:52:14 | 显示全部楼层
回复 5# WHY


    谢谢了   搞定
刚才找了一下   
找到这个 接近
sed "y/;&/\n\n/" utf.txt | sed -n "/.*src=/ s/.*src=//p">b.txt
发表于 2018-1-20 19:59:33 | 显示全部楼层
回复 6# web


    允许使用第三方的话,推荐 grep
  1. grep -P -o "(?<=src=")[^^"]+" a.html
复制代码
非要用 sed,或许可以这样:
  1. sed -r "s/(src=|[^"]\.jpg)"/\1\n/g" a.html | findstr /b /e "\/.*\.jpg"
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 04:31 , Processed in 0.019976 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表