（已解决）网页文件一行内容提取图片地址不需要重复的

web · 发表于 2018-1-18 16:00:45

本帖最后由 web 于 2018-1-19 13:57 编辑

<img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_9480.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_9480.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_5111.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_5111.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_4181.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_4181.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_8536.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_8536.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_2145.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_2145.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123754_4315.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123754_4315.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_5113.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_5113.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_7621.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_7621.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_2878.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_2878.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_9000.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_9000.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_605.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_605.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123755_8239.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123755_8239.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_5145.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_5145.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_3003.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_3003.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_6521.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_6521.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_9915.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_9915.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123756_2703.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123756_2703.jpg" /> <img alt="undefined" src="/upload/externalpic/1214218/1214218_20170827123757_1357.jpg" style="border: none; visibility: visible; vertical-align: bottom; max-width: 790px; zoom: 1;" class="lazy" data-original="/upload/externalpic/1214218/1214218_20170827123757_1357.jpg" />

<img src="/upload/files/2017/08/20/1503223004634.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223004634.jpg" height="1311" width="740" /><img src="/upload/files/2017/08/20/1503223032210.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223032210.jpg" height="9860" width="740" /><img src="/upload/files/2017/08/20/1503223054641.jpg" alt="" class="lazy" data-original="/upload/files/2017/08/20/1503223054641.jpg" height="5919" width="740" />

2段文件都是只有一行取共同的方法
网页文件提取图片地址不需要重复的不需要引号

523066680 · 发表于 2018-1-18 19:38:26

use Mojo::DOM;
use File::Slurp;
my $html = read_file( "a.htm" );
my $dom = Mojo::DOM->new( $html );
grep { print $_->attr("data-original"), "\n" } ( $dom->find("img")->each );

复制代码

/upload/externalpic/1214218/1214218_20170827123754_9480.jpg
/upload/externalpic/1214218/1214218_20170827123754_5111.jpg
/upload/externalpic/1214218/1214218_20170827123754_4181.jpg
/upload/externalpic/1214218/1214218_20170827123754_8536.jpg
/upload/externalpic/1214218/1214218_20170827123754_2145.jpg
/upload/externalpic/1214218/1214218_20170827123754_4315.jpg
/upload/externalpic/1214218/1214218_20170827123755_5113.jpg
/upload/externalpic/1214218/1214218_20170827123755_7621.jpg
/upload/externalpic/1214218/1214218_20170827123755_2878.jpg
/upload/externalpic/1214218/1214218_20170827123755_9000.jpg
/upload/externalpic/1214218/1214218_20170827123755_605.jpg
/upload/externalpic/1214218/1214218_20170827123755_8239.jpg
/upload/externalpic/1214218/1214218_20170827123756_5145.jpg
/upload/externalpic/1214218/1214218_20170827123756_3003.jpg
/upload/externalpic/1214218/1214218_20170827123756_6521.jpg
/upload/externalpic/1214218/1214218_20170827123756_9915.jpg
/upload/externalpic/1214218/1214218_20170827123756_2703.jpg
/upload/externalpic/1214218/1214218_20170827123757_1357.jpg
/upload/files/2017/08/20/1503223004634.jpg
/upload/files/2017/08/20/1503223032210.jpg
/upload/files/2017/08/20/1503223054641.jpg

slore · 发表于 2018-1-19 10:00:18

本帖最后由 slore 于 2018-1-19 10:01 编辑

extractimg.rb (ruby)

puts File.read('a.html').scan(/\/upload[^.]+\.jpg/).uniq

复制代码

代码解释：读取文件，扫码获取jpg文件的正则表达式匹配，再利用数组的uniq(唯一)方法，去掉重复匹配。

web · 发表于 2018-1-19 10:50:49

谢谢各位的回复有没有批处理或者批处理使用第三方的方法其他语言还不会使用麻烦了

WHY · 发表于 2018-1-19 13:17:31

本帖最后由 WHY 于 2018-1-20 19:55 编辑

@echo off
PowerShell -c "[string]$s=type a.html;[regex]::Matches($s,'(?<=src=\")[^^\"]+')|%%{$_.Value}"
pause

复制代码

web · 发表于 2018-1-19 13:52:14

回复 5# WHY

谢谢了搞定
刚才找了一下
找到这个接近
sed "y/;&/\n\n/" utf.txt | sed -n "/.*src=/ s/.*src=//p">b.txt

WHY · 发表于 2018-1-20 19:59:33

回复 6# web

允许使用第三方的话，推荐 grep

grep -P -o "(?<=src=\")[^^\"]+" a.html

复制代码

非要用 sed，或许可以这样：

sed -r "s/(src=|[^\"]\.jpg)\"/\1\n/g" a.html | findstr /b /e "\/.*\.jpg"

复制代码

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] （已解决）网页文件一行内容提取图片地址不需要重复的

评分

评分

评分

[文本处理] （已解决）网页文件 一行内容 提取图片地址 不需要重复的

评分

评分

评分

[文本处理] （已解决）网页文件一行内容提取图片地址不需要重复的