Go语言视频零基础入门到精通

javalearner · 发表于 2014-11-3 00:02:22

下面的例子演示如何利用正则表达式从一个URL中查找并输出所有类似下面的超链接：

            <a href="http://www.sina.com">

首先我们从命令行输入URL地址，打开输入流，读取URL的内容并转化为字符串存入HTMLString中。然后以"(<a\s*href=[^>]*>)"构造正则表达式，最后在字符串htmlString中查找匹配的字符串。

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class GetHref {
   public static void main(String[] args) {
      InputStream in = null;
      PrintWriter out = null;
      String htmlString=null;





      try {
         // Check the arguments
         if ((args.length != 1)&& (args.length != 2))
               throw new IllegalArgumentException("Wrong number of args");

         // Set up the streams
         URL url = new URL(args[0]); // Create the URL
         in = url.openStream();       // Open a stream to it
         if (args.length == 2)       // Get an appropriate output stream
               out = new PrintWriter(new FileWriter(args[1]));
         BufferedReader bin=new BufferedReader(new InputStreamReader(in));
         String line;
         StringBuffer sb = new StringBuffer();
         while((line=bin.readLine())!=null){
            if(out!=null) out.println(line);
            sb=sb.append(line);
         }
         htmlString=sb.toString();
         // System.out.println(sb.toString());
}
      // On exceptions, print error message and usage message.
      catch (Exception e) {
         System.err.println(e);
         System.err.println("Usage: java GetURL <URL> [<filename>]");
      }
      finally {  // Always close the streams, no matter what.
         try { in.close();  out.close(); } catch (Exception e) {}
      }

      Pattern p = Pattern.compile("(<a\s*href=[^>]*>)");
      Matcher m = p.matcher(htmlString);
      boolean result = m.find();
      while(result){
         for(int i=1;i<=m.groupCount();i++){
         System.out.println(m.group(i));
         }
      result=m.find();
      }
   }
}
程序运行结果：
C:java>java GetHref http://127.0.0.1:8080/zz3zcwbwebhome/index.jsp
<a href="mailto:zz3zcwb@sina.com">
<a href="javascript:" class="bb" onclick="window.external.addFavorite("http://ww
w.zzedu.gov.cn","java学习室")">
<a href="javascript:" class="bb" onClick="this.style.behavior="url(#default#home
page)"this.setHomePage("http://10.10.1.1/index.jsp");">
<a href="learn.jsp">
<a href="download.jsp">
<a href="article.jsp">
<a href="#">
<a href="#">
<a href="#">
<a href="#" class="FrameTeitle">
<a href="#" class="FrameTeitle">
<a href=view.jsp?id=89>
<a href=view.jsp?id=88>
..........................
  网上的另一个程序：

/**//*
功能根据输入的网址、起止字符串，采集网址页面的超链接
*/
import java.net.*;
import java.io.*;
import java.util.regex.*;
public class GetHtmlLink
{
String sourceURL;//需要采集的网页网址
String sourceContent;//网页页面内容
//String URLs; //采集到的超链接
//String title;//采集到的链接文字
String beginStr;//网页内容匹配区域开始字符串
String endStr;//网页内容匹配区域结束字符串
String matchContent;//网页内容匹配区域
public static void main(String[] args)
{
GetHtmlLink ghl=new GetHtmlLink("http://www.xxx.com","< body","< /body>");
//System.out.println("text="+ghl.getMatchContent());
ghl.getLink(ghl.matchContent);
}
//根据传来的网页网址、匹配区域起止字符串初始化
public GetHtmlLink(String sourceURL,String beginStr,String endStr)
{
this.sourceURL=sourceURL;
this.beginStr=beginStr;
this.endStr=endStr;
sourceContent=getSourceContent();
//System.out.println("source="+sourceContent);
matchContent=getMatchContent();
}
//获取网页页面内容
public String getSourceContent(){
StringBuffer sb=new StringBuffer();
try
{
URL newURL=new URL(sourceURL);
BufferedReader br=new BufferedReader(new InputStreamReader(newURL.openStream()));
String temp;
while((temp=br.readLine())!=null)
{
sb.append(temp);
}
}catch(MalformedURLException e){
e.printStackTrace();
}
catch(IOException e){
e.printStackTrace();
}
return sb.toString();
}
//获取匹配区域
public String getMatchContent()
{
String regex=beginStr+".*"+endStr;
//System.out.println(regex);
Pattern pt=Pattern.compile(regex);
Matcher mt=pt.matcher(sourceContent);
if(mt.find())
{
return mt.group();
}
else return null;
}
//获取需要并打印:超链接和标题
public void getLink(String s)
{
int counter=0;//计算器计算超链接的个数
String regexURL="< a\s*?href=([^>]*?)>(.*?)< /a>";//*?懒惰匹配
Pattern pt=Pattern.compile(regexURL);
Matcher mt=pt.matcher(s);
while(mt.find())
{
counter++;
//打印mt.group(0);
System.out.println(mt.group());
//获取并打印标题
String title=mt.group(2);
System.out.println("标题："+title);
//获取并打印网址
String urls=mt.group(1);
// System.out.println("网址："+urls);
String urlsRegex="(.*?\.((html)|(jsp)|(com)|(cn)|(net)|(asp)|(htm))).*?";
Matcher mt2=Pattern.compile(urlsRegex).matcher(urls);
while(mt2.find())
{
System.out.println("网址："+mt2.group(1));
}
//System.out.println("网址："+urls);
System.out.println();//空行
}
System.out.println("共有"+counter+"个符合结果");
}
}

复制代码

源码下载：http://file.javaxxz.com/2014/11/3/000222359.zip

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万！大数据从入门到精通学习路线	年薪50万！机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

Java亿级流量电商系统视频教程

年薪50万Spark2.0从入门到精通

年薪50万！人工智能学习路线教程

[正则表达式学习]正则表达式学习-从一个URL中获取所有的超链接

相关帖子