[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[问题求助] Python用什么办法把歌曲的相关信息抓下来?

辛晓琪 - 忐忑.ape
辛晓琪 - 亲爱的你.ape
辛晓琪 阿杜 - 月光日记.ape

页面上一共有3首歌曲,这个页面是最后一页。前面一页15首,每个页面都是15首。
先挑简单的做吧,最后一个页面怎么提取歌曲名字。正则匹配最容易想到的,还有
别的办法吗?


以下是页面的信息
=====================

  <tbody id="filemangelist">
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826394"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 - 忐忑.ape" href="http://www.yimuhe.com/file-1826394.html" target="_blank">辛晓琪 - 忐

忑.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826394','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826394','辛晓琪 - 忐忑','');">&nbsp;</a><a href="javascript:;" class="menudm bgs1 ico

-copy-file r" style="width:25px;display: block;" title="复制链接地址" onclick="copy_file

('1826394','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">0</td>
      <td class="tr">27.5MB</td>
      <td class="tr">2013-12-09 18:23:37</td>
    </tr>
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826393"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 - 亲爱的你.ape" href="http://www.yimuhe.com/file-1826393.html" target="_blank">辛晓琪

- 亲爱的你.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826393','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826393','辛晓琪 - 亲爱的你','');">&nbsp;</a><a href="javascript:;" class="menudm bgs1

ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"

onclick="copy_file('1826393','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">2</td>
      <td class="tr">22.91MB</td>
      <td class="tr">2013-12-09 18:21:51</td>
    </tr>
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826392"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 阿杜 - 月光日记.ape" href="http://www.yimuhe.com/file-1826392.html" target="_blank">辛

晓琪 阿杜 - 月光日记.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826392','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826392','辛晓琪 阿杜 - 月光日记','');">&nbsp;</a><a href="javascript:;" class="menudm

bgs1 ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"

onclick="copy_file('1826392','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">1</td>
      <td class="tr">28.25MB</td>
      <td class="tr">2013-12-09 18:20:16</td>
    </tr>
  </tbody>

=========================

匹配文本
[^"]*\.ape
Python不会,你修改别人的爬虫看看

TOP

  1. [\w\s-]*\.ape
复制代码
#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

回复 2# xp3000

多谢,我去试试看。

TOP

回复 3# ivor


onclick="edit_file('1826394','辛晓琪 - 忐忑','');

提取这个的表达式怎么写?

TOP

bs4 Beautiful Soup这个模块学学,html,xml随便弄!我爬网页都没有用过正则!

TOP

回复 6# Gin_Q

谢谢,我去学学这个模块。

TOP

回复 4# netdzb
  1. [\u4e00-\u9fa5\s-]+
复制代码
匹配 辛晓琪 - 忐忑
#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

回复 8# ivor

这个字段是可变的,可能是 辛晓琪 - 忐忑 可能是 辛晓琪 - 爱的回答, 也有可能是 邓丽君 - 甜蜜蜜。

TOP

返回列表