[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[已解决]各20元求两个网站资料下载

本帖最后由 lxh623 于 2018-12-8 19:25 编辑

http://www.zgshige.com/sg/
这个有index。感觉比较醒目。
http://www.52shici.com/original.php?type=1
这个有20个栏目,右边上面两行。下面也是可以翻页。

标题前面加上TTT,第一个有“作者:”,第二个是不是把“文/”换成“作者:”(自己加工也行)。正文保持原来网页转行与隔行,就好了。

谢谢!!

可以自己手动下载的,想着大侠的脚本舒服,不用太复杂的加工。
如果有热心朋友愿意帮忙,感激不尽。如果没有,就手动下载了。谢谢!

TOP

windows8,下周windows10 。谢谢!

TOP

楼主是win7吗?powershell 是2.0 版本?
下载第一个网站的
保存为zgshige.bat
flashercs 发表于 2018-11-19 14:40

这个第10行的数字不像以前一个可以修改吧?谢谢!

TOP

另一个问题是,怎样从本地以日子或类别命名的文件夹,一次性提取一个txt。要求还是标题加TTT 。
下载到本地的html,可以检查是否缺页。
一个15元。谢谢!

TOP

看不大懂说的意思. 假装看懂了....我语文从来不及格的...
假设当前目录是E:\abc ,分类子目录有 0 ,1 ,2 ,3 ...
flashercs 发表于 2018-11-23 12:54

分别合成一个文本。谢谢!
还没有下载完。

TOP

本帖最后由 lxh623 于 2018-11-23 15:28 编辑

两位都在。新的问题是怎样下载百度搜索结果页面。这是以前我没有下载到的一个。
我想把文本a的每一行打开,搜索,结果数量从1-99,具体不知道。怎样全部下载百度结果的html,也不知道会不会重名。
类似网址:https://www.baidu.com/s?q1=《目送》&q2=&q3=&q4=&gpc=stf&ft=&q5=&q6=www.juzimi.com&tn=baiduadv

以后,我准备提取含有writer或者article的链接的缓存。再去下载。当然,直接提取这样的网址或者下载这样的快照页面更好了。
还是20 。谢谢!

TOP

文本提取还有几天,之后,再来了结。谢谢!

TOP

楼主是win7吗?powershell 是2.0 版本?
下载第一个网站的
保存为zgshige.bat
flashercs 发表于 2018-11-19 14:40


第一个文件很大,下载了大约三分之二。请问,两个网站的脚本,可以设置为跳过已经有的文件,只是补足吗?

TOP

下载  网页,与楼上一样,也分三个脚本,第1个脚本 startScript.bat 和第2个脚本 startScript.ps1 内容与楼 ...
WHY 发表于 2018-11-19 15:45

zgshige还是差五十多万。
不知道可以做一个下载导航页(三万多)的批处理。
然后,我得到没有下载到的文件的网址,写入文本a,五十万行,再来一个批处理。一万一个文件夹。
谢谢!

TOP

本帖最后由 lxh623 于 2018-11-27 22:10 编辑
回复  lxh623


    后面的导航页下载很慢,但是内容页下载很快, 5楼更新了一下代码, 59行可以自定义起始 ...
flashercs 发表于 2018-11-26 18:56

请问,句子迷那个脚本(原帖不能回复),我买了网上的代理,设置5分钟切换并清除cookie,这时候,脚本就报“403”并退出。有没有办法不退出,等几秒呢?谢谢!
代理软件有个手动触发(F6),可以下载大约三十个网页就暂停,提醒或者批处理中触发吗,然后等10秒又接着下载?

TOP

回复  lxh623

已修改了
flashercs 发表于 2018-11-29 18:43

请问,脚本对应于我的代理软件的自动或者手动模式,手动会提醒吗?

出线一个重定向的提示。谢谢!

TOP

楼主是win7吗?powershell 是2.0 版本?
下载第一个网站的
保存为zgshige.bat
flashercs 发表于 2018-11-19 14:40

好像没有作者。谢谢!

TOP

提取文本的批处理比较慢。我用TextForever来转换,34万大约两个小时。提取却不行,合并也不能批量。不过都还可以解决。批处理来做,主要是看不到进程。
下载用23楼的批处理是比较快。网站也会封,毕竟180多万去找,昨晚,用了TRACKS ERASER PRO 老版软件设置半小时清理cookie等等,好像还可以继续下载。

TOP

回复  lxh623


    在我的笔记本上测试 #14 脚本,提取 12000 个文本,3分26秒完成,不算太慢。
大批 ...
WHY 发表于 2018-12-4 11:41

谢谢回复。那天用了15号,有点慢。另一个老兄的也慢。
14号还没有下载完。

TOP

返回列表