Java学习者论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

恭喜Java学习者论坛(https://www.javaxxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,购买链接:点击进入购买VIP会员
JAVA高级面试进阶视频教程Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java架构师3期(课件+源码)

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

深度学习(CNN RNN GAN)算法原理

Java亿级流量电商系统视频教程

互联网架构师视频教程

年薪50万Spark2.0从入门到精通

年薪50万!人工智能学习路线教程

年薪50万!大数据从入门到精通学习路线年薪50万!机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程 MySQL入门到精通教程
查看: 349|回复: 0

[Java基础知识]Java版本的布隆过滤器

[复制链接]
  • TA的每日心情
    开心
    2021-3-12 23:18
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-30 17:46:03 | 显示全部楼层 |阅读模式
    哈哈...我终于写了个BloomFilter  这个是干嘛用的???
    恩...一般比较常见的应用是字符串去重..也就是...恩..就是采集网址去重.防止重复采集  下面是我自己写的个例子

    1. BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream
    2. ("D:\Users\caiqing\workspace\CQ\library\dictionary-utf8.TXT"),"UTF-8")) ;   
    3.         String str = null ;   
    4.         System.out.println("begin");   
    5.         long start = System.currentTimeMillis() ;   
    6.         while((str=br.readLine())!=null){   
    7.             if(bf.containsAndAdd(str)){   
    8.                 System.out.println("containsAndAdd:"+str);   
    9.             }   
    10.         }   
    11.            
    12.         br.close() ;   
    13.            
    14.         br = new BufferedReader(new InputStreamReader(new FileInputStream
    15.                 ("D:\Users\caiqing\workspace\CQ\library\dictionary-utf8.TXT"),"UTF-8")) ;   
    16.             System.out.println("begin-find");   
    17.             start = System.currentTimeMillis() ;   
    18.             while((str=br.readLine())!=null){   
    19.                 if(!bf.contains(str)){   
    20.                     System.out.println("contains:"+str);   
    21.                 }   
    22.             }   
    23.                
    24.         System.out.println(System.currentTimeMillis()-start);   
    25.         br.close() ;  

    复制代码
    对分词词典79962个词进行插入.和查重..准确率100%.算上IO时间耗时79毫秒...  源码我放到下面了大家可以下载..还有..要的人给个评论吧..我的博客好冷清啊
      今天回来用我的过滤器做了个测试哎...效果不是很理想啊..在千万级数据还行.再大就不好办啦    重新抄袭了一些经典的算法...(哎中科院老师的算法有毛病有三个Hash算法都是白给的.也许是我从c转到java没写对吧..) 现在效率1亿..64m内存大约失误率是0.0013 12m的失误个数是44..另外我吧能加的hash都加上了.这里只测试了5个..哈哈
    我很满意非常满意....请大家敬请下载吧  Java代码
    10000000
    32m:0
    64m:0
    128m:0

    100000000
    64m:146546
    128m:44
    256m:0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|Java学习者论坛 ( 声明:本站资料整理自互联网,用于Java学习者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-20 17:03 , Processed in 0.403103 second(s), 46 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表