【练习-054】用批处理选择性解析网页代码

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

2楼

发表于 2009-12-12 09:44 | 显示全部帖子

回复 3楼的帖子

1、结果肯定不是很正确，时间的输出格式是09-12-4-09:05，PB的输出应该是PB+5式样（都要处理其中的空格）。

2、我在顶楼要求b.txt中所有信息都要从网页源码中获取，即你并不知道要提取的信息具体内容，所以echo 被评分者评分时间积分
变动评分理由>b.txt有点投机了。

3、效率上是存在着一定的问题，具体也不多说了。

4、总之完成的还可以，继续加油！

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

3楼

发表于 2009-12-12 17:35 | 显示全部帖子

回复 2楼的帖子

if !l! EQU 1 set/p=%%x%%y <nul else ( 这是什么语法？

另结果不正确。。。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

4楼

发表于 2009-12-12 17:45 | 显示全部帖子

&&我之所以在顶楼要求技术组和管理层暂不解题，就是想留给大家更多独立思考的时间，所以请大家都动脑想一想，动手练一练，

同时这样的问题你们在现实中是很有可能遇到的，只要独立解出了此题，相信以后你们碰到同样的问题，处理起来一定会得手应手。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

5楼

发表于 2009-12-12 19:18 | 显示全部帖子

回复 7楼的帖子

依我的理解，应该不会出现兄弟这样的情况，不知兄弟用的是什么方法，逐行判断处理？

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

6楼

发表于 2009-12-12 20:40 | 显示全部帖子

做点小小的提示：

1、充分利用findstr的正则来解题。

2、尽量采用一次性读取和输出以提高效率，即读取和输出同时进行。

3、在获取链接地址时注意处理引号技巧的运用。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

7楼

发表于 2009-12-13 09:38 | 显示全部帖子

回复 13楼的帖子

1、论坛是不能处理tab的，所以贴出带有tab的代码时，最好要说明下哪些空格实际上tab。

2、echo 被评分者评分时间积分变动评分理由违反题意。

3、既然开了变量延迟为什么还要用call，这样会代码运行影响效率。

4、时间中的空格没有处理好。

5、这种长变量的方法很好，思路好。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

8楼

发表于 2009-12-13 09:50 | 显示全部帖子

回复 12楼的帖子

之所以看不出你上下两段代码的效率的区别，我想原因有二：

1、你12楼的代码中有大量的冗余操作，导致代码效率降低。

2、处理的数据量不是很大，所以在时间比较上看不出太大的差别。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

9楼

发表于 2009-12-13 14:08 | 显示全部帖子

&&看来此题对于普通会员来说具有一定的难度，下面给出本人的全解，并稍做说明，代码如下：

@echo off&setlocal enabledelayedexpansion
(for /f "delims=" %%a in ('findstr /r "<b>< <td.*d>$" a.txt') do (
    set /a n+=1&if !n! equ 6 set /a n=1,m=0&echo.
    if not defined m (
       for /f "tokens=3,4 delims=/<>" %%b in ("%%a") do set /p=%%b <nul&if !n! equ 3 set /p=%%c <nul
       ) else (
       if !n! equ 1 for /f "tokens=4 delims=<>" %%b in ("%%a") do set /p=%%b <nul
       if !n! equ 2 for /f "tokens=8 delims== " %%b in ("%%a") do set /p=http://bbs.bathome.net/%%~b <nul
       if !n! equ 3 for /f "tokens=8,12,13 delims=<> " %%b in ("%%a") do set /p=%%b %%c-%%d <nul
       if !n! equ 4 for /f "tokens=4,7 delims=<> " %%b in ("%%a") do set /p=%%b%%c <nul
       if !n! equ 5 for /f "tokens=3 delims=<>" %%b in ("%%a") do set /p=%%b <nul
    )
))>b.txt
start b.txt
复制代码

说明：
首先讲讲findstr正则的运用，大家都明白代码中运用findstr是为了最大限度地从a.txt中剔除无用信息行而提取有用信息行，所以

代码中使用了findstr /r "<b>< <td.*d>$" a.txt，之所以使用/r参数是为了让findstr识别后面的<td.*d>$表达式而不是全做为字符来处理

其中的$表示行尾，使用<b><的表达式的意思大家都知道我就不说明了，使用<td.*d>$表达式就可以提取所有含有<td字符并从中剔

除只以<td>结尾的行。

接下来讲下代码中for /f "tokens=* delims=*"的运用，使用findstr正则提取了有用信息行后，接下来我们还要从每行中剔除无用

的信息，而保留输出想要的信息，一般来说可以采用两种办法，一种是字符截取，但因为文本中的字符数是在变化的，所以此法不

可用，那么我们就要利用好for /f中的tokens和delims参数了，先选取合适的足够的分隔符来将每行分成n列，注意在分隔时不要将

我们想要获取的字符部分分开了，同时尽量取特殊字符为分隔符而不要取常用的数字和字母，最后取我们所需要的列并输出就可以

了。

看了13楼的长变量法（将每五行存入一个变量），我也尝试过用此法来解析出全信息，但实际上处理起来相当麻烦，希望有高人

能给出此法的精彩代码。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

10楼

发表于 2009-12-13 17:11 | 显示全部帖子

回复 18楼的帖子

看了你的代码，我也着实郁闷，你处理得太复杂了吧，后面的结果根本不对。。。

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

11楼

发表于 2009-12-14 17:58 | 显示全部帖子

回复 20楼的帖子

像这种逐行（实际上不是每行）skip的方法，效率是最大的问题，如果有10000组数据要处理，那岂不是要用for

对文本读取10000次，还有被评者是在每组第一行的，请问用这种skip方法如何得到？就是经处理得到后，还不是

一样要处理滤过每组的第二行？再说了对空格的处理直接用delims不就行了，还要搞什么退格？

＊＊＊共同提高＊＊＊

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

12楼

发表于 2009-12-18 21:40 | 显示全部帖子

回复 24楼的帖子

我所说的大变量法在前面16楼已经说明了，但要求比我16楼的代码还要简洁，目前苦无突破。。。

＊＊＊共同提高＊＊＊