[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【已解决】抓取两个网站的文章

本帖最后由 lxh623 于 2018-10-7 08:06 编辑

http://www.ceasm.com/
http://www.1juzi.com/juzidaquan/


两个都有八个一级栏目。二级栏目,第一个在下面“栏目导航”那里,第二个就在下面粉色的文字。
希望是进到二级栏目,抓取文章,有些文章有多页。文章标题加A 。正文在标题后面,每一段落为文本的一行。
比如,第一个网站第一个二级栏目的第一篇:(行首空格,我可以删除的。)

A不到不可怕,守不住才是个笑话
经典语录:不到不可怕,守不住才是个笑话
1、我看我自己看了20多年才看顺眼,你看我不顺眼很正常。我活着也不是为了取悦你。
2、我要的,只是简单而安稳的生活,最好的幸福,是你给的在乎。

一个网站 30元,谢谢大家!!

回复 21# flashercs
站内短信,您没有回复。另一个您可以问一问。
这个脚本下载了1860k,就停了。
昨天,我自己把网页下载了,也是个办法。我也是觉得做成字典,可以自己看看,别人写作也可以参考,不是赚钱的。花一点点钱,玩一玩。当然,感谢大家帮助。

TOP

本帖最后由 523066680 于 2018-10-6 08:11 编辑

回复 21# flashercs


    我还以为题主在后台和你们联系付款,你们才能孜孜不倦地跟进。。。

我试着扒了一个,感觉30元根本不划算,除非是自己做着玩儿

http://bbs.bathome.net/thread-50855-1-1.html

另外,17楼说的很对。

TOP

本帖最后由 flashercs 于 2018-10-6 10:07 编辑
  1. function showError(e,t){tsLog.WriteLine("[object Error]"===Object.prototype.toString.call(e)?[e.name,"source: "+(void 0===t?"":t),"number: "+(e.number>>>0).toString(16),"equipment: "+(e.number>>16&8191),"code: "+(65535&e.number),"Information: "+e.message].join("\r\n"):e)}function getHTML(e){xhr.open("GET",e,!1),xhr.setRequestHeader("Accept","text/html, application/xhtml+xml, application/xml; q=0.9, */*; q=0.8"),xhr.setRequestHeader("Accept-Language","en-US, en; q=0.8, zh-Hans-CN; q=0.5, zh-Hans; q=0.3"),xhr.setRequestHeader("Accept-Encoding","gzip, deflate"),xhr.setRequestHeader("TE","gzip, deflate"),xhr.setRequestHeader("Connection","close"),xhr.setRequestHeader("Cache-Control","no-cache"),xhr.setRequestHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"),xhr.setRequestHeader("Upgrade-Insecure-Requests","1");try{xhr.send()}catch(e){}}function parseXML(e){var t;return 0===e.parseError.errorCode||(t=e.parseError,showError(["You have error ","reason: "+t.reason,"code: "+(t.errorCode>>>0).toString(16),"filepos: "+t.filepos,"line: "+t.line,"linepos: "+t.linepos,"srcText: "+t.srcText,"url: "+t.url].join("\n")),!1)}function getContent(e){var t,o,r,c,s,i;if(getHTML(e),200===xhr.status){for(document.open(),document.write(xhr.responseText),document.close(),t=document.getElementById("content"),c=t.firstChild;c&&(1!==c.nodeType||"Post"!==c.className);)c=c.nextSibling;if(c){for(i=c.firstChild;i&&"PostHead"!==i.className;)i=i.nextSibling;if(i){for(s=i.getElementsByTagName("h2"),s=s?s[0].innerText:"",t=c.firstChild;t&&"PostContent"!==t.className;)t=t.nextSibling;if(t){for(o=t.childNodes,r=o.length-1;r>=0;--r)(re1.test(o[r].className)||re2.test(o[r].nodeName))&&t.removeChild(o[r]);try{ts.WriteLine("A"+(s+"\r\n"+t.innerText).replace(re3,"\r\n").replace(re4,"")),tsCache.WriteLine(e)}catch(t){showError(t,e)}}}}}}var xhr=function(){for(var e=["MSXML2.XMLHTTP.6.0","MSXML2.XMLHTTP.3.0","MSXML2.XMLHTTP","Microsoft.XMLHTTP"],t=0;t<e.length;t++)try{return WScript.CreateObject(e[t])}catch(e){}WScript.Quit(1)}(),xmlDoc,xmlDoc2,sitemap="https://www.lz13.cn/sitemap.xml",sitemapValue,document=new ActiveXObject("htmlfile"),fso=new ActiveXObject("Scripting.FileSystemObject"),ts,tsLog,tsCache,file="lizhi13.txt",oSelection,oSelection2,nodeLoc,re1=/left_box\d*|blank.*|pager/,re2=/ul|ol/i,re3=/[\r\n][\s\u3000]+/g,re4=/^[\s\u3000]+|\s+$/g,logfile=encodeURIComponent(sitemap)+".log",cachefile="$cache.log",oCache={};try{tsLog=fso.OpenTextFile(logfile,8,!0)}catch(e){WScript.Echo("can not write log file "+logfile),WScript.Quit(2)}try{tsCache=fso.OpenTextFile(cachefile,1,!0)}catch(e){WScript.Echo("can not read cache file "+cachefile),WScript.Quit(2)}for(;!tsCache.AtEndOfStream;)oCache[tsCache.ReadLine()]=1;tsCache.Close();try{tsCache=fso.OpenTextFile(cachefile,8,!0)}catch(e){WScript.Echo("can not write cache file "+cachefile),WScript.Quit(2)}try{ts=fso.OpenTextFile(file,8,!0,-1)}catch(e){showError(e,"can not write file "+file),WScript.Quit(3)}try{if(getHTML(sitemap),200===xhr.status){xmlDoc=xhr.responseXML,null==xmlDoc&&(showError("The content is not a XML.URL="+sitemap),WScript.Quit(4)),parseXML(xmlDoc)||WScript.Quit(5),xmlDoc.setProperty("SelectionLanguage","XPath"),xmlDoc.setProperty("SelectionNamespaces",""),oSelection=xmlDoc.selectNodes("sitemapindex/sitemap/loc/text()");for(var i=0,l=oSelection.length-1;i<l;++i)if(sitemapValue=oSelection.item(i).nodeValue,!oCache[sitemapValue])if(getHTML(sitemapValue),200===xhr.status){if(xmlDoc2=xhr.responseXML,null==xmlDoc2){showError("The Content is not a XML.URL="+sitemapValue);continue}if(!parseXML(xmlDoc2))continue;for(xmlDoc2.setProperty("SelectionLanguage","XPath"),xmlDoc2.setProperty("SelectionNamespaces",'xmlns:t="'+xmlDoc2.documentElement.getAttribute("xmlns")+'"'),oSelection2=xmlDoc2.selectNodes("t:urlset/t:url/t:loc/text()");nodeLoc=oSelection2.nextNode();)if(!oCache[nodeLoc.nodeValue])try{getContent(nodeLoc.nodeValue)}catch(e){}tsCache.WriteLine(sitemapValue)}else showError("status"+xhr.status+"\r\n"+xhr.getAllResponseHeaders())}else showError("status"+xhr.status+"\r\n"+xhr.getAllResponseHeaders())}catch(e){throw showError(e),e}finally{ts.Close(),tsLog.Close(),tsCache.Close()}WScript.Echo("Mission complete."),WScript.Quit(0);
复制代码

TOP

回复 19# lxh623


    我这里没有问题。
第15行第5个字符是空白字符,不可能报错。第25行 send 报错,可能是网络或服务器自身的问题,你换个时间点再试。

TOP

回复 16# WHY
第25(或者15)行第五个字符。退出了。
大约http://www.1juzi.com/new/4099.html后面。
谢谢!

TOP

本帖最后由 lxh623 于 2018-10-3 16:36 编辑

再来一个网站。
http://www.lz13.cn/
二级链接就是上面两行栏目的链接。以及最下面一行的“资料”及倒数第二行作文大全 诗词名句 读后感 观后感 读书笔记 好词好句 祝福语 经典台词 个性签名 教育教学 日志大全 等等。
暂时不知道网页还有更多的链接不。
要求与上面一样。标题加个A 。
谢谢!!

TOP

30? 路边摆碗,日收入有时也好几百哦。
戏子台上摆个型。轻松录个广告。就是几十万,几百万个30啊。技术误国。

TOP

回复 15# lxh623


    已修改。

TOP

有些标题没有抓到,请再帮我看看。
比如,http://www.1juzi.com/new/122019.html
我试着抓了一千页,没有得到该页标题。
谢谢!

TOP

回复 13# lxh623


    这个网址我下载后用记事本打开没发现有乱码,Win10 v1803 系统。

TOP

回复 12# WHY
http://www.1juzi.com/new/6228.html
还有签名大全里面有很多自创字符,EmEditor打开编辑后有乱码。

另一个兄弟是保存为同一编码的文本。

所以,我觉得,编码可能一样更好。UTF-8和GB,有些字符会变化。
谢谢!国庆节快乐!

TOP

回复 10# lxh623


    我不明白“保持网页代码”是个什么鬼,
我这里测试没有“乱码”,请举例说明你的要求。

另外,5楼脚本中第15、16、17行是替换 html 转义字符的。如果“乱码”指这些转义字符,删掉15、16、17行。

TOP

在扒第一个网站的时候发现了一段不太一样的
http://www.ceasm.com/lizhiyulu/2814.html
  1. 克日,萌宠举措悬疑笑剧影戏《营救汪星人》宣布了全新的“励志汪”版创意主题写真,写真图中汪汪们或在山顶瞻仰天空,或趴在路边思索人生,再配以切合意境的“励志心灵鸡汤”每只狗狗都有和本身相对应的励志语录。如:“不是每次主人城市给肉骨头,但每一次都值得本汪去实行”,站长之家 站长站 中国站长 站长网 seo查询 帮站seo 权重查询 网站权重查询 站长工具综合查询 百度排名查询 排名查询 iis7网站监控, 网站监控 免费网站监控 监控宝 域名劫持 域名被墙 dns污染 网站速度检测 网站速度测试 网站被黑 ,这种话也只有二哈能想出来;“若是本日糊口诱骗了你,不要哀痛,不要抽泣,你还可以诱骗你本身”等风趣应景的话语,让人捧腹大笑的同时不禁直呼列位看官快饮了这碗“狗狗心灵鸡汤”。
复制代码

TOP

回复 5# WHY
求保持网页代码的办法。因为有乱码。

TOP

返回列表