【已解决】30元扒网站数据 - 有偿求助 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

返回列表发帖

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

1楼 跳转到 »

发表于 2018-9-22 04:37 | 显示全部帖子

本帖最后由 WHY 于 2018-9-24 23:03 编辑

js 脚本，依照第4行的样子修改第5行
或者：把第4行前面的注释删掉，再删掉第5行，可以下载7个栏目

var fso = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');

//var map = {'元曲':'YuanQu','诗经':'ShiJing','楚辞':'ChuCi','乐府诗集':'YueFu','其它古代':'Other','近现代诗':'XianDai','外国诗词':'ForeignPoesy'};
var map = {'诗经':'ShiJing','楚辞':'ChuCi', '近现代诗':'XianDai'};
var home = 'http://www.chinapoesy.com/';

for (var key in map) {
    var n = 0;
    var url = home + map[key] + 'Index' + (key == '外国诗词' ? '.aspx' : '.html');
    var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;
    while(url != '') {
        var txt = getText(url);
        if(!n++) {
            var m1 = txt.match(/\(按照人气排名\).*?href='(.*?\.html)'/);  //按照人气排名有 "更多..." ？
            txt = m1 ? getText(home + m1[1]) : txt.match(/\(按照人气排名\)[\s\S]+?<\/table>/)[0];
        }
        var m2 = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
        url = m2 ? home + m2[1] : '';
        txt = m2 ? txt.match(/>查询中 请稍后…[\s\S]+?<\/table>/)[0] : txt;
        while(arr=reg.exec(txt)) getPoesy(home + arr[1]);
    }
}

//获取网页内容
function getText(url) {
    http.open('GET', url, false);
    http.send();
    with(new ActiveXObject('ADODB.Stream')){
        Mode = 3; Type = 1;
        Open();
        Write(http.responseBody);
        Position = 0;
        Type = 2;
        Charset = 'UTF-8';
        var s = ReadText(-1);
    }
    return s;
}

//获取诗词
function getPoesy(url) {
    var reg = /href='(.+?\.html)'\s*target\s*=\s*"_blank"([\s\S]+?\(\d+\))/g;
    while(url != '') {
        var txt = getText(url);
        var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/);  //有 "下一页" ？
        url = m ? home + m[1] : '';
        txt = txt.match(/>编辑它<\/a>[\s\S]+?>关于我们<\/a>/);
        while(arr=reg.exec(txt)) {
            var s = getText(home + arr[1]);                                  //歌词内容
            s = s.split('("#loading").css("display","none");')[1];
            if(!s) return 0;        //某些特定诗词网址打不开，遇到这种情况继续
            s = s.split('<script type="text/javascript">')[0];
            //中文及标点字符后面加 <br />
            s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1<br />');
            //删除所有标签，保留换行标签，删除空格和html转义空格
            s = s.replace(/<(?!\/?br)[^>]*>|&nbsp;|[ 	　　]+/g, '');
            s = s.replace(/<\/?br>|<br\/>/g, '<br />');   //<br>、</br>、<br/> 替换为 <br />
            s = s.replace(/\r?\n/g, '');
            s = s.replace(/^(?:<br \/>)+/, '');           //删除开头多余的标签
            s = s.replace(/(<br \/>)+$/, '$1');           //删除结尾多余的标签
            s = s.replace(/&middot;/g, '·').replace(/&ldquo;/g, '“').replace(/&rdquo;/g, '”');
            s = s.replace(/&mdash;/g, '—').replace(/&quot;/g, '"');
            s = s.replace(/(?:<br \/>)+/, '\t');          //第一次连续多个换行标签替换为 Tab
            s = s.replace(/(<br \/>)+/, '$1');            //第二次连续多个换行标签替换为一个
            var s1 = arr[2].replace(/[ 	　　\r\n]+/g, '').replace(/.*>/, '');  //标题+人气指数
            writeToFile(s1 + '\t' + s);
        }
    }
}

//写入文本
function writeToFile(str) {
    var objFile = fso.OpenTextFile(key + '.Log', 8, true);
    objFile.WriteLine(str);
    objFile.Close();
}

WSH.Echo('Done')
复制代码

1 评分人数

lxh623: 谢谢！技术 + 1

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

2楼

发表于 2018-9-22 15:30 | 显示全部帖子

回复 7# lxh623

以北岛的第一首诗爱情故事 (136569) 为例，你想得到的结果是什么？
如果不容易描述，把你希望的文本格式用附件上传。

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

3楼

发表于 2018-9-22 18:07 | 显示全部帖子

本帖最后由 WHY 于 2018-9-22 18:12 编辑

回复 9# lxh623

已修改，
如果需要合并成一个大的文本，替换第 76 行的 key 为指定的文件名，如：把 key 替换成 'E:/a.txt'

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

4楼

发表于 2018-9-23 02:44 | 显示全部帖子

回复 11# lxh623

唐诗网址中 html 换行标签不统一，把 6# 第63行改成这样子：

s = s.replace(/<(?!\/?br)[^>]*>|&nbsp;|[ 	　　]+/g, '').replace(/<\/?br>|<br\/>/g, '<br />');
复制代码

宋词网址中又用段落标签代替换行标签，总之就是混乱。

6# 已经提示你，参考4行修改5行。

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

5楼

发表于 2018-9-23 02:54 | 显示全部帖子

本帖最后由 WHY 于 2018-9-24 23:05 编辑

全唐诗.JS

var fso  = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');
var home = 'http://www.chinapoesy.com/';

for (var i=0; i<=2; i++) {
    var map = [], map_ = [];
    var url = home + 'TangshiAllindex' + i + '.html';
    var txt = getText(url);
    txt = txt.split('class="Normal">下卷</a>')[1];
    var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;

    while(arr = reg.exec(txt)) {
        url = home + arr[1];
        while(url != '') {
            var s = getText(url);           //歌词页面
            var m = s.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/);//有 "下一页" ？
            url = m ? home + m[1] : '';
            s = s.split('<!-- AspNetPager V6.0.0 for VS2005 End -->')[1];
            if(!s) continue;
            var a = s.split(/<\/li>\r?\n\s*<\/ul>\r?\n\s*\<\/div>/);
            for(var j=0; j<a.length-1; j++) {
                var ti = a[j].match(/<b>(.*?)<\/b>/)[1];                         //诗词标题
                var au = a[j].match(/class="Green">\r?\n\s*([^\r\n]*)/)[1];      //作者名
                var li = a[j].match(/class="LiTitle"><a href='(.*?\.html)'/)[1]; //标题连接
                if(!map_[au]) {
                    getPopularity(home + li);
                    map_[au] = 1;
                }
                writeToFile(getPoesy(a[j]));
            }
        }
    }
}

//获取网页内容
function getText(url) {
    http.open('GET', url, false);
    http.send();
    with(new ActiveXObject('ADODB.Stream')){
        Mode = 3; Type = 1;
        Open();
        Write(http.responseBody);
        Position = 0;
        Type = 2;
        Charset = 'UTF-8';
        var s = ReadText(-1);
    }
    return s;
}

//获取人气指数
function getPopularity(url) {
    while(url != '') {
        var s= getText(url);
        var m = s.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
        url = m ? home + m[1] : '';
        s = s.split('<!-- AspNetPager V6.0.0 for VS2005 End -->')[1];
        if(!s) return 0;
        var reg = /title="([^"]*)\)">[\s\S]+?(\(\d*\))/g;
        while(arr = reg.exec(s)) map[au + arr[1]] = arr[2];
    }
}

//获取诗词
function getPoesy(str) {
    var s = str.replace(/>评论<\/a>/, '>');
    s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1<br />');
    s = s.replace(/<(?!\/?br)[^>]*>|&nbsp;|[ 	　　]+/g, '');
    s = s.replace(/<\/?br>|<br\/>/g, '<br />');
    s = s.replace(/\r?\n/g, '');
    s = s.replace(/^(?:<br \/>)+/, '');
    s = s.replace(/(<br \/>)+$/, '$1');
    s = s.replace(/(?:<br \/>)+/, '\t');
    s = s.replace(/(<br \/>)+/, '$1');
    return ti + map[au+ti] + '\t' + s;
}

//写入文本
function writeToFile(str) {
    var objFile = fso.OpenTextFile('全唐诗.Log', 8, true);
    objFile.WriteLine(str);
    objFile.Close();
}

WSH.Echo('Done')
复制代码

1 评分人数

lxh623: 乐于助人技术 + 1

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

6楼

发表于 2018-9-23 03:02 | 显示全部帖子

本帖最后由 WHY 于 2018-9-24 23:07 编辑

全宋词.js

var fso = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');

var home = 'http://www.chinapoesy.com/';
var url = home + 'SongCiAllIndex_1.html';
var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;

while(url != '') {
    var txt = getText(url);
    var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
    url = m ? home + m[1] : '';
    txt = txt.match(/>查询中 请稍后…[\s\S]+?<\/table>/)[0];
    while(arr = reg.exec(txt)) getPoesy(home + arr[1]);
}

//获取网页内容
function getText(url) {
    http.open('GET', url, false);
    http.send();
    with(new ActiveXObject('ADODB.Stream')){
        Mode = 3; Type = 1;
        Open();
        Write(http.responseBody);
        Position = 0;
        Type = 2;
        Charset = 'UTF-8';
        var s = ReadText(-1);
    }
    return s;
}

//获取诗词
function getPoesy(url) {
    var reg = /href='(.+?\.html)'\s*target\s*=\s*"_blank"([\s\S]+?)(\(\d+\))/g;
    while(url != '') {
        var txt = getText(url);
        var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/);  //有 "下一页" ？
        url = m ? home + m[1] : '';
        txt = txt.match(/>编辑它<\/a>[\s\S]+?>关于我们<\/a>/);
        while(arr = reg.exec(txt)) {
            var s = getText(home + arr[1]);                         //歌词内容
            s = s.split('("#loading").css("display","none");')[1];
            if(!s) return 0;
            s = s.split('<script type="text/javascript">')[0];
            s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1<br />');
            s = s.replace(/<(?!\/?br)[^>]*>|&nbsp;|[ 	　　]+/g, '');
            s = s.replace(/<\/?br>|<br\/>/g, '<br />');
            s = s.replace(/\r?\n/g, '');
            s = s.replace(/^(?:<br \/>)+/, '');
            s = s.replace(/(<br \/>)+$/, '$1');
            s = s.replace(/(?:<br \/>)+/, '\t');
            s = s.replace(/(<br \/>)+/, '$1'); 
            var s1 = arr[2].match(/title\s*=\s*"([^"]*?)\)"/)[1];  //标题
            var s2 = arr[3];                                       //人气指数
            writeToFile(s1 + s2 + '\t' + s);
        }
    }
}

//写入文本
function writeToFile(str) {
    var objFile = fso.OpenTextFile('全宋词.Log', 8, true);
    objFile.WriteLine(str);
    objFile.Close();
}

WSH.Echo('Done')
复制代码

1 评分人数

lxh623: 乐于助人技术 + 1

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

7楼

发表于 2018-9-24 23:13 | 显示全部帖子

6、14、15 楼脚本更新，换行标签及人气指数问题已经解决
全唐诗、全宋词脚本分开写，实在不想再多花时间了。

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]