设为首页收藏本站

切换到宽版

论坛BBS

批处理之家»论坛 › 批处理专区: BAT CMD DOS › BAT求助&讨论 › 如何提取网页中指定的网址，实现短网址直达功能，求批处 ...

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

返回列表发新帖

查看: 27551|回复: 9

[文本处理] 如何提取网页中指定的网址，实现短网址直达功能，求批处理

发表于 2017-12-2 10:52:20 | 显示全部楼层 |阅读模式

求批处理，谢谢：
发现个新问题，这个转址居然用wget.exe下不下来，举例网址 dd.ma/mE0NUHSi
网页源码见附件，提取网址（网址任意的）并打开如下图红色部分所示，注意，网址并不固定不限是如下百度的（如其它任意形式的网址），但都是这个形式而已：

回复

发表于 2017-12-2 11:36:49 | 显示全部楼层

回复 1# 447219071

# -*- coding:utf-8 -*-
# 需下载Python 3.5, bs4
# pip -install bs4
import bs4, os
import urllib.request as url
try:
#文件路径
file = "file:///D:/robot/desk/Script/a.txt"
req = url.urlopen(file)
soup = bs4.BeautifulSoup(req,'html.parser')
for i in soup.find_all('a'):
if i.string == '点击打开' or i.string == '点击这里进入':
Url = url.unquote(i.get('href'))
print("%s: %s" % (i.string,Url))
os.system("start %s" % Url)
except:
print("文件不能读取")
pass
input("回车结束")

复制代码

回复 

发表于 2017-12-2 11:47:31 | 显示全部楼层

本帖最后由 lifei259 于 2017-12-4 13:38 编辑

@echo off
for /f "tokens=9 delims=^=^> " %%a in ('type,a.txt^|find "href="') do set "a=%%a"
start "" %a%ping 127.1 -n 10
pause

复制代码

我更新了你可以试试,等十秒打开一个窗口。

回复 

楼主| 发表于 2017-12-2 14:47:20 | 显示全部楼层

回复 2# ivor 是求批处理，谢谢

回复 

楼主| 发表于 2017-12-2 14:48:47 | 显示全部楼层

回复 3# lifei259
这是要打开的还原地址没错，但是其它网页代码也与此类似，但要得到的网址并不一定是百度的

回复 

发表于 2017-12-2 19:39:14 | 显示全部楼层

@echo off&setlocal enabledelayedexpansion
set "str1=http:"
set "str2=""
(for /f "delims=" %%a in ('findstr "!str1!.*!str2!" "A.txt"') do (
set "str=#%%a"
set "str=!str:%str1%=$!"
for /f "tokens=2 delims=$" %%i in ("!str!") do set "str=%str1%%%i"
set "str=!str:%str2%=*!"
for /f "tokens=1 delims=*" %%j in ("!str!") do echo;%%j
))>temp.txt
pause

复制代码

获取所有HTTP开头的网址，没有对重复网址进行甄别。

回复 

发表于 2017-12-3 01:06:10 | 显示全部楼层

python3 + selenium + chrome浏览器

# -*- coding: utf-8 -*-
"""
Created on Sun Dec 3 00:40:35 2017
@author: codegay
python3 & 编辑器 == spyder
"""
from time import sleep
from selenium import webdriver
# appdata = environ["LOCALAPPDATA"] + r"\Google\Chrome\User Data"
appdata = "c:/chrome-selenium"
options = webdriver.ChromeOptions()
options.add_argument("user-data-dir=" + appdata)
# options.add_argument("headless")
options.add_argument("disable-gpu")
ddurl = "http://dd.ma/mE0NUHSi"
chrome = webdriver.Chrome(chrome_options=options)
chrome.get(ddurl)
sleep(10)
try:
geturl = chrome.find_element_by_link_text("点击这里进入")
except:
print("异常错误或者找不到元素")
exit()
url = geturl.get_property("href")
print("url:", url)
chrome.get(url)

复制代码

回复 

发表于 2017-12-3 07:47:26 | 显示全部楼层

优化了一下。通过id和tag定位，这样不用等待JS的那个倒计时。

# -*- coding: utf-8 -*-
"""
Created on Sun Dec 3 00:40:35 2017
@author: codegay
python3 & 编辑器 == spyder
"""
from time import sleep
from selenium import webdriver
# appdata = environ["LOCALAPPDATA"] + r"\Google\Chrome\User Data"
appdata = "c:/chrome-selenium"
options = webdriver.ChromeOptions()
options.add_argument("user-data-dir=" + appdata)
# options.add_argument("headless")
# options.add_argument("disable-gpu")
ddurl = "http://dd.ma/mE0NUHSi"
chrome = webdriver.Chrome(chrome_options=options)
chrome.get(ddurl)
sleep(1)
try:
geturl = chrome.find_element_by_id("btn_open")
geturl = geturl.find_element_by_tag_name("a")
except Exception as e:
print("异常错误或者找不到元素:")
print(e)
exit()
url = geturl.get_property("href")
print("url:", url)
chrome.get(url)

复制代码

回复 

楼主| 发表于 2017-12-4 08:16:55 | 显示全部楼层

回复 8# codegay

可能我使用的是WINDOWS系统的原因，生成批处理运行后没有反应！谢谢费心

回复 

楼主| 发表于 2017-12-4 08:21:07 | 显示全部楼层

回复 3# lifei259

恩，试了可以用！另一个像我更新后的问题，用WGET下不了这个转址的源码，因为下这个转短的源码要等展示5秒钟后才会出现真正的源码，请问怎么弄法，谢谢高手！

回复 

发表于 2017-12-6 02:22:30 | 显示全部楼层

本帖最后由 codegay 于 2017-12-6 02:23 编辑

nim语言写的

import httpclient
import re
import os
proc getlink*(url:string):string {.discardable.} =
var client = newHttpClient()
var link: array[1,string]
var ddmaContent:string
ddmaContent = client.getContent(url)
client.close()
if find(ddmaContent,re"""link1\"\s+href=\"(.+)\"""",link,1) != -1 :
echo "link:",link[0]
result = link[0]
else:
result = ""
proc startlink*(url:string):int {.discardable.} =
result = execShellCmd("start " & url)
startlink(getlink("http://dd.ma/mE0NUHSi"))

复制代码

回复 

返回列表发新帖

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-7-16 10:50

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表