Java学习者论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

恭喜Java学习者论坛(https://www.javaxxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,购买链接:点击进入购买VIP会员
JAVA高级面试进阶视频教程Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java架构师3期(课件+源码)

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

深度学习(CNN RNN GAN)算法原理

Java亿级流量电商系统视频教程

互联网架构师视频教程

年薪50万Spark2.0从入门到精通

年薪50万!人工智能学习路线教程

年薪50万!大数据从入门到精通学习路线年薪50万!机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程 MySQL入门到精通教程
查看: 379|回复: 0

[正则表达式学习]Java正则表达式过滤HTML标签实例

[复制链接]
  • TA的每日心情
    开心
    2021-3-12 23:18
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-10-28 23:58:46 | 显示全部楼层 |阅读模式
    [code][/code]
       
        package string;
    import java.util.regex.Pattern;
    /**
    * 截取HTML代码
    *
    * @author YangJunping
    * @date 2010-7-15
    */
    public class Html2Text {
            public static void main(String[] args) {
                    StringBuffer htmlStr = new StringBuffer();
                    htmlStr.append("<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">")
                           .append("<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"><head><title>aaa</title><mce:script type="text/javascript"></mce:script>")
                           .append("<link href="static_files/help.css" mce_href="static_files/help.css" rel="stylesheet" type="text/css" media="all" />")
                           .append("</head><body><ul><li>XXXX</li></ul></body></html>");
                   
                    System.out.println(Html2Text(htmlStr.toString()));
            }
            public static String Html2Text(String inputString) {   
            String htmlStr = inputString; // 含html标签的字符串   
            String textStr = "";   
            java.util.regex.Pattern p_script;   
            java.util.regex.Matcher m_script;   
            java.util.regex.Pattern p_style;   
            java.util.regex.Matcher m_style;   
            java.util.regex.Pattern p_html;   
            java.util.regex.Matcher m_html;   
      
            java.util.regex.Pattern p_html1;   
            java.util.regex.Matcher m_html1;   
      
           try {   
                String regEx_script = "<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\s\S]*?<\/script>   
                String regEx_style = "<[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\s\S]*?<\/style>   
                String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式   
                String regEx_html1 = "<[^>]+";   
                p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);   
                m_script = p_script.matcher(htmlStr);   
                htmlStr = m_script.replaceAll(""); // 过滤script标签   
      
                p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);   
                m_style = p_style.matcher(htmlStr);   
                htmlStr = m_style.replaceAll(""); // 过滤style标签   
      
                p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);   
                m_html = p_html.matcher(htmlStr);   
                htmlStr = m_html.replaceAll(""); // 过滤html标签   
      
                p_html1 = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);   
                m_html1 = p_html1.matcher(htmlStr);   
                htmlStr = m_html1.replaceAll(""); // 过滤html标签   
      
                textStr = htmlStr;   
      
            } catch (Exception e) {   
                System.err.println("Html2Text: " + e.getMessage());   
            }   
      
           return textStr;// 返回文本字符串   
        }   
    }

    运行:
       
    C:work>java Html2Text  
       
    aaaXXXX
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|Java学习者论坛 ( 声明:本站资料整理自互联网,用于Java学习者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-19 11:35 , Processed in 0.357343 second(s), 50 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表