hubbledotnet搜索中怎么过滤掉

这样的HTML标签?

潮起潮落 2012-02-15 11:16:21
RT...
在Stopword.txt中尝试加入<*>不行,好像不支持通配符
分别加入<p>和</p>也不行,因为分词会把<p>分成< p >三个
此时该怎么做才能规避掉HTML标签呢,只能在数据库里面处理掉吗?
...全文
66 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
poson 2012-02-22
  • 打赏
  • 举报
回复
正则表达式。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧