|
|
本人很喜欢用批处理收集网络上小说,自动采集电视节目表等等。但以下这个网站难度比较大。请各位大大想想办法。
采集地址:
http://www.tvsou.com/union/uni2.asp?tvid=1&channelid=3&programDT=2010-3-1
编写批处理(可以用第三方)自动生成如下格式电视节目表:- 10/03/01
- 00:57 晚间精编节目
- 01:05 晚间精编节目
- 03:05 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:时尚快跑
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博18
- 16:08 理财在线:帮您打理口袋里的钱
- 16:33 寻宝:寻民间国宝200944
- 17:33 2010财经小辞典35
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博19
- 18:53 理财在线:梭子蟹经纪人
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 艺术品市场热点对话5
- 23:47 台北故宫13
- 10/03/02
- 00:07 今日观察
- 00:42 商道:海之链
- 01:20 晚间精编节目
- 03:20 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:极地求生
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博14
- 16:08 理财在线:年入百万靠蝗虫
- 16:33 快乐主妇
- 17:33 2010财经小辞典31
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博15
- 18:53 理财在线:当鸟养的鸡
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 台北故宫3
- 23:42 台北故宫4
- 10/03/03
- 00:07 今日观察
- 00:42 商道:极地求生
- 01:20 晚间精编节目
- 03:20 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:说商业传奇解财富之道
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博15
- 16:08 理财在线:当鸟养的鸡
- 16:33 购物街:快乐购物之旅
- 17:33 2010财经小辞典32
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博16
- 18:53 理财在线:蝎子王的致富秘笈
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 台北故宫5
- 23:42 台北故宫6
复制代码 难点是:
1.过滤不需要的内容。只取时间和节目标题。
2.需要解决这个网站图片文字问题。(比如第一行“00:57 晚间精编节目”中的“晚间”实际上是一张gif格式图片,还有些数字也是,随机图片,采集时需把它们转为文字, 不然采集到的内容会残缺不全,失去了意义)
3.最好能采集到电视剧的简介(简介在打开的链接中,需要对地址进行处理才能正确取得节目介绍,另外它也有图片文字的问题)
[ 本帖最后由 inittab 于 2010-3-1 22:17 编辑 ] |
|