node.js正则表达式获取网页中所有链接的代码实例
实现代码
varhttp=require('http');
//定义函数 vargetAHref=function(htmlstr){ varreg=/<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim; vararr=[]; while(tem=reg.exec(htmlstr)){ arr.push(tem[2]); } returnarr; }
varqHref="http://xxx";//设置被查询的目标网址 varreq=http.get(qHref,function(res){ varpageData=""; res.setEncoding('utf8'); res.on('error',function(errget){ //出错处理 }); res.on('data',function(chunk){ pageData+=chunk; });
res.on('end',function(){ //console.dir(pageData); varcontent=pageData;//获取到网页内容 varhrefs=getAHref(content);//获取链接
});
});