本帖最后由 qq629926132 于 2021-4-17 14:08 编辑
想利用cul下载人民日报网址的某天的数据
现在想到的办法是 输入一个时间日期,然后下载当天的数据
他的网址比较有规律,是这样排序的
http://paper.people.com.cn/rmrb/page/2020-04/01/01/rmrb2020040101.pdf
http://paper.people.com.cn/rmrb/page/2020-04/01/02/rmrb2020040102.pdf
…
http://paper.people.com.cn/rmrb/page/2020-04/01/14/rmrb2020040114.pdf
网址比较有规律,前半部分为年-月/日的组合,后面01和尾部PDF序号是按照顺序递增的
我现在想到的办法是手动输入日期,然后拼接后面的网址实现下载
但是现在遇到问题如下
开始的数据不是2位数,比如01 02,它变成了1 2 3结果就会找不到地址下载失败- set /p date=time
- set start=01
- set end=21
- (for /l %%a in (%start% 1 %end%) do (
- curl -O http://paper.people.com.cn/rmrb/page/%date%/%%a/rmrb20200401%%a.pdf
- ))
- pause
复制代码 修改版。现在加了这段代码,发现可以实现循环了 ,nice
改版如下:- @echo off&setlocal EnableDelayedExpansion
- set /p date=time
- (for /l %%i in (1,1,21) do (set i=0%%i
- set i=!i:~-2!
- curl -O http://paper.people.com.cn/rmrb/page/%date%/!i!/rmrb20200401!i!.pdf
- ))
- pause
复制代码 还有其他的,准备研究一下合并PDF文件试试,
新问题:
用curl下载的文件,能否指定目录文件夹呢,网上找的方案是:
curl -L url -O <filePath>
curl -L -O http://paper.people.com.cn/rmrb/page/2020-02/02/02/rmrb2020020202.pdf “E:\1”
可是目录里面是空的,还是会下载到批处理当前目录
暂时没找到解决办法,利用了一个笨方法
把下载到当前目录的PDF文件,用move命令移动到文件夹, |