找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 14911|回复: 3

【完成】求网页下载内容+50元

  [复制链接]
发表于 2021-9-30 09:48:32 | 显示全部楼层 |阅读模式
本帖最后由 lxh623 于 2021-9-30 15:09 编辑

https://www.daodaoba.com/?s=vod- ... A4%A7%E9%99%86.html
我只是想得到大陆电视剧的名字,9661条。
269页下载也行。

然而,这个网站异常难搞。

谢谢!
发表于 2021-9-30 12:45:15 | 显示全部楼层
已成功获取, 有意私聊
发表于 2021-9-30 12:45:41 | 显示全部楼层
本帖最后由 zaqmlp 于 2021-9-30 13:37 编辑
  1. <# :
  2. rem 另存为ANSI编码的bat
  3. cls&echo off
  4. cd /d "%~dp0"
  5. powershell -NoProfile -ExecutionPolicy bypass "[IO.File]::ReadAllText('%~f0',[Text.Encoding]::GetEncoding('GB2312'))|Invoke-Expression"
  6. pause
  7. exit
  8. #>

  9. $webclient=New-Object System.Net.WebClient;
  10. function gethtml($u){
  11.     $t='';
  12.     for($j=1;$j -le 3;$j++){
  13.         try{
  14.             $webclient.Headers.Add('User-Agent','Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36');
  15.             $webclient.Encoding=[System.Text.Encoding]::UTF8;
  16.             $t=$webclient.DownloadString($u);
  17.         }catch{
  18.             write-host ('第'+$j.toString()+'次获取网页内容失败');
  19.             start-sleep -Seconds 3;
  20.         };
  21.     };
  22.     return $t;
  23. };

  24. $outfile='.\结果.txt';
  25. $totalpage=0;
  26. $url='https://www.daodaoba.com/?s=vod-type-id-2-area-大陆-p-1.html';
  27. $html=gethtml $url;
  28. $m1=[regex]::match($html,'页次:\d+/(\d+)页');
  29. if($m1.Success){
  30.         $fs=New-Object System.IO.FileStream($outfile, [System.IO.FileMode]::Create);
  31.         $sw=New-Object System.IO.StreamWriter($fs, [Text.Encoding]::GetEncoding('GB2312'));
  32.         $totalpage=[int]$m1.groups[1].value;
  33.         for($i=1;$i -le $totalpage;$i++){
  34.                 write ('-----------'+$i.toString()+'/'+$totalpage.toString()+'-----------');
  35.                 $p_url=$url -replace '\d+(?=\.html)',$i.toString();
  36.                 $html=gethtml $p_url;
  37.                 $m2=[regex]::match($html,'<ul [^>]*?id="contents">([\s\S]+?)</ul>');
  38.                 if($m2.Success){
  39.                         $m3=[regex]::matches($m2.groups[1].value,'<li(?: [^>]+?)?>[\s\S]*?([^>]+)</a></h2>[\s\S]*?主演:</em>([^>]+)</p>[\s\S]*?</li>');
  40.                         foreach($it in $m3){
  41.                                 $title=$it.groups[1].value;
  42.                                 $cast=$it.groups[2].value;
  43.                                 $sw.WriteLine($title);
  44.                                 $sw.Flush();
  45.                         }
  46.                 }
  47.         }
  48.         $sw.Close();
  49.         $fs.Close();
  50. }

复制代码

评分

参与人数 1技术 +1 收起 理由
lxh623 + 1 乐于助人

查看全部评分

发表于 2021-9-30 13:22:52 | 显示全部楼层
本帖最后由 slimay 于 2021-9-30 13:30 编辑

你要的信息已经整理好了,请到 http://cmd1152.ys168.com/  文件区   下载 "提取的完美信息.html"  , 显示效果如下, 点击电影名字, 即可跳转到电影页面,共提取9961条,分毫不差
功勋
超少年密码
高纬度战栗
前清秘史
食人鱼事件
日落紫禁城
咱爸咱妈60年
少年嘉庆
为了新中国前进
神鞭
一锁五十年
风满楼
非亲姐妹
愤怒的天使
翡翠凤凰
...

评分

参与人数 1技术 +1 收起 理由
lxh623 + 1 乐于助人

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-17 01:32 , Processed in 0.020053 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表