如何用lucene实现正则表达式查询

hjy1998 2017-09-22 11:23:30
请教个问题,在一些文档中可能有类似 ”,未见发热”或“。无发热症状”的语句,但我只想查出一句话中不包含否定词“未“或者”无”但包含“发热”关键词的文档,用lucene如何实现,谢谢
...全文
352 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
okkk 2017-09-27
  • 打赏
  • 举报
回复
lucene 是基于 相等 来做的,然后在上面加上分词工具。 进行一个范围查询 比如 ID 大于0 小于 100 这种条件,直接进行值比较在lucene里面都是不推荐的(lucene虽然可以做到),正确的做法是: 建立索引时,将ID的值,直接写成字符串"(0-1000]",在查询的时候,就可以将ID查询分成 0-100,100-200,200-300,其他。这种形式。 在线电商的价格查询,一般都是这种模式。 如果必须使用模糊查询,其实就是在输出的document上进行二次判断过滤,支持数值比较,字符串模糊查询,正则式查询,或则其他更复杂的查询都没问题。 但这种方式,是对lucene输出结果的过滤,不是lucene核心的功能。
曾阿牛_ 2017-09-22
  • 打赏
  • 举报
回复
用正则很好实现,用lucene不知道,顶一下
小旋风垂直搜索平台 源代码共享计划 小旋风是什么? 小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持的综合垂直搜索引擎平台。 它帮您快速搭建任何一个您期望中的垂直搜索平台,比如酷讯(kuxun.cn),比如去哪儿,比如搜职网,比如爱帮网等等。 为什么小旋风是客户端,它是基于什么平台开发的? 从程序使用的方便性及性能上考虑,我们为发挥客户端强大的权限优势,为您提供一个最容易上手的平台。 小旋风是基于微软下一代面向对象的开发语言C# 2.0开发,您使用前请确保您的系统安装了.net framework2.0。 小旋风上手困难吗?一般的采集程序都要求使用者了解正则表达式正则表达式定制规则存在几点问题。一是正则表达式对普通用户而言门槛太高。二是正则表达式的规则太难维护,源网站只要有一点点的变更,可能导致模板要重新更换。 我们从设计之初就重视并解决这个问题,采用国际标准的xml/xpath路径描述语言,在我们的系统,html自动转换为标准的xml文档。然后使用类似html/title这样的路径来指向我们需要采集的内容。 什么人需要小旋风? 如果您需要批量采集数据上,并且在数据变化时能够同步更新。 如果您是高校信息检索相关的研究生,正为搜索引擎相关论文发愁。 如果您希望搭建一个垂直搜索引擎 如果您喜欢c#,小旋风也将是一个不错的商业程序案例。 如果您… 作者联系方式: Qq: 86820609 Email / msn: jerry_weijb@163.com

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧