找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 69050|回复: 17

[网络连接] 批处理如何下载动态网页及图片

[复制链接]
发表于 2016-3-9 17:14:28 | 显示全部楼层 |阅读模式
本帖最后由 wzf1024 于 2016-3-9 20:23 编辑

有很规律的网页链接,如何用批处理下载,如:
http://pmmp.cnki.net/Operation/Details.aspx?id=0001
http://pmmp.cnki.net/Operation/Details.aspx?id=0002
……
http://pmmp.cnki.net/Operation/Details.aspx?id=3263
手动保存太慢了。
哪位大神帮忙,拜托!!
最好每个网页的图片集中在单独的文件夹,名字与网页对应
发表于 2016-3-9 17:25:04 | 显示全部楼层
回复 1# wzf1024

teleport  ultra
发表于 2016-3-9 19:11:43 | 显示全部楼层
按规律生成网址。用迅雷下载。
 楼主| 发表于 2016-3-9 19:52:45 | 显示全部楼层
回复 2# happy886rr


    teleport  ultra不能对付动态网页
 楼主| 发表于 2016-3-9 19:55:31 | 显示全部楼层
回复 3# codegay


    迅雷只能取回文字网页,图片没有
发表于 2016-3-9 20:06:18 | 显示全部楼层
本帖最后由 ivor 于 2016-3-9 20:51 编辑

回复 1# wzf1024



  1. # coding:utf-8
  2. # 功能:自动检测下载文章中的图片http://pmmp.cnki.net/Operation/Details.aspx?id=xxxx

  3. import bs4
  4. import urllib.request as url
  5. import re
  6. import os

  7. website = 'http://pmmp.cnki.net'
  8. link = 'http://pmmp.cnki.net/Operation/Details.aspx?id=0075'
  9. for j in range(10001,19999):
  10.     try:
  11.         page = link + str(j)[1:]
  12.         print(page)
  13.         response = url.urlopen(page)
  14.         data = bs4.BeautifulSoup(response,'html.parser')
  15.         if not os.path.exists(str(j)[1:]):
  16.             os.mkdir(str(j)[1:])
  17.         for i in data.findAll('img'):
  18.             pic = i['src'][2:]
  19.             sum = '%s%s' % (website,url.quote(url.unquote(pic)))
  20.             jpg = url.urlopen(sum)
  21.             with open('./' + str(j)[1:] + '/' + re.split('/', pic)[-1], 'w+b') as pic_file:
  22.                 pic_file.write(jpg.read())
  23.     except:
  24.         pass

复制代码

评分

参与人数 1技术 +1 收起 理由
wzf1024 + 1 乐于助人

查看全部评分

 楼主| 发表于 2016-3-9 20:20:46 | 显示全部楼层
回复 6# ivor


    老大,我运行bat没结果,这个怎么用?看你的图好像所有图片都在一起了,最好每个网页的图片集中在单独的文件夹,名字与网页对应
发表于 2016-3-9 20:27:12 | 显示全部楼层
回复 7# wzf1024


    这是python3.5的代码:https://www.python.org/ftp/python/3.5.1/python-3.5.1.exe
BS4地址:http://www.crummy.com/software/B ... lsoup4-4.4.1.tar.gz


安装完,把代码保存为*.py后缀的就可以了,还需要bs4的模块库



2楼代码更新了
 楼主| 发表于 2016-3-9 22:00:15 | 显示全部楼层
本帖最后由 wzf1024 于 2016-3-10 00:44 编辑

回复 8# ivor


    老大,只取回图片,没有网页文字内容!
希望取回文字存为aspx或htm,包括图片链接,谢谢
发表于 2016-3-9 22:37:50 | 显示全部楼层
回复 9# wzf1024
  1. mshta http://bathome.net/s/hta/?echo=false download('http://pmmp.cnki.net/Operation/Details.aspx?id=0001','0001.html')
复制代码
 楼主| 发表于 2016-3-10 00:35:00 | 显示全部楼层
回复 10# pcl_test


   大侠,这需要什么第三方?
 楼主| 发表于 2016-3-13 16:20:06 | 显示全部楼层
用迅雷下了网页,但是图片链接没办法对应上,如果能把网页一起下就好了,保持图片链接有效。
不过还是谢谢ivor。
发表于 2016-3-13 17:08:19 | 显示全部楼层
curl wget有镜像功能。
发表于 2016-3-14 19:39:26 | 显示全部楼层
  1. @echo ^
  2.     var i=10000;^
  3.     var u='http://pmmp.cnki.net/Operation/';^
  4.     while(i++){^
  5.         var n=(i+'').substr(1);^
  6.         var h=web(u+'Details.aspx?id='+n);^
  7.         if(h.length^^^<6000)break;^
  8.         h=h.replace(/((href^^^|src)=\u0022)(?!http:)/ig,'$1'+u);^
  9.         iconv.saveText(h,n+'.html','utf-8');^
  10.     }^
  11. | mshta http://bathome.net/s/hta/ eval(WSH.StdIn.ReadAll())
复制代码

评分

参与人数 1技术 +1 收起 理由
happy886rr + 1 转义换行符,学到了

查看全部评分

 楼主| 发表于 2016-3-15 23:34:46 | 显示全部楼层
回复 14# CrLf


    大侠,这个怎么用啊,我是菜鸟
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 01:42 , Processed in 0.018836 second(s), 7 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表