布隆过滤器(Bloom Filter)网页正文去重思路

lynn_l 2018-04-12 09:24:28
用simhash尝试过网页的正文去重 效果还行 但考虑的内存的限制 因此想使用布隆过滤器 但是思路受阻
1、网页正文分词之后使用布隆过滤器应该如何存储 大概有2亿左右的新闻
2、现在实现的算法正文需要完全匹配 完全起不到相似筛选的作用
求大佬指教
...全文
1076 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
lynn_l 2018-04-27
  • 打赏
  • 举报
回复
引用 3 楼 oyljerry 的回复:
[quote=引用 2 楼 lynn_l的回复:][quote=引用 1 楼 oyljerry 的回复:] bloom filter只能比较相同,不能判断相似。
那能不能换一个思路 将simhash值存储在布隆过滤器中降低内存消耗 改写contains方法比较相似度?[/quote] 相似的值太多,这个不好处理。[/quote] 还有个问题 Java版的布隆过滤器是用BitSet实现的 能初始化的最大值是Integer.MAX_VALUE 即2的32次方 21亿多 如果我要存5亿数据 误报率十万分之一 根据公式算出来的位数组大小是120亿 这个怎么搞啊
lynn_l 2018-04-13
  • 打赏
  • 举报
回复
引用 1 楼 oyljerry 的回复:
bloom filter只能比较相同,不能判断相似。
那能不能换一个思路 将simhash值存储在布隆过滤器中降低内存消耗 改写contains方法比较相似度?
oyljerry 2018-04-13
  • 打赏
  • 举报
回复
引用 2 楼 lynn_l的回复:
[quote=引用 1 楼 oyljerry 的回复:] bloom filter只能比较相同,不能判断相似。
那能不能换一个思路 将simhash值存储在布隆过滤器中降低内存消耗 改写contains方法比较相似度?[/quote] 相似的值太多,这个不好处理。
oyljerry 2018-04-12
  • 打赏
  • 举报
回复
bloom filter只能比较相同,不能判断相似。

50,530

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧