如何判断一个网站是色情网站?

lxtlxtlxt 2009-05-21 03:05:52
现有一批网站,该如何用JAVA判断网站中含有不良信息呢?

现在的想法是读取网站的首页内容,然后选择不良关键字匹配,
不知道这个方法效果、效率会怎样?
可有有这方面经验的?
...全文
5394 27 打赏 收藏 转发到动态 举报
写回复
用AI写文章
27 条回复
切换为时间正序
请发表友善的回复…
发表回复
lxtlxtlxt 2009-05-22
  • 打赏
  • 举报
回复
感谢大家的回复。

关键字肯定是要匹配的,现在遇到的问题是,
单凭网站的首页可能无法判断是否是黄色网站,
这就需要类似网络爬虫的东西,对首页里的链接做类似首页操作,
一般网页里的链接比较多,所以有没有什么方法可以有选择的选取部分链接,而不是全部。
liu_zhaoqf 2009-05-22
  • 打赏
  • 举报
回复
mark
money8899 2009-05-22
  • 打赏
  • 举报
回复
可以随时增加的关键字库。,做一个黑名单处理
pathuang68 2009-05-22
  • 打赏
  • 举报
回复
我觉得楼主的想法是可行的,关键是要建立一个全面的,可以随时增加的关键字库。
shuai45 2009-05-22
  • 打赏
  • 举报
回复
我的觉得可以从以下几个方向入手:
1:关键字过滤。页面一般都会在head中加入关键字和关键内容。取得页面头部信息,进行过滤。(不能说全部有效,至少可以过滤一些黄色网站)
2:与网络监督机构取得联系。他们回有黄色网站的相关地址和信息。(也可以屏蔽一些黄色网站)
黄色网站 单从技术上根本不能彻底判断。如果可以的话 把你写的这套东西可以卖给国家,挣些钱了。
所以,能避免的尽量避免,做不到的也是无奈。
dongjh411526 2009-05-22
  • 打赏
  • 举报
回复
主要是看关键字!
orz_ORZ_orz 2009-05-21
  • 打赏
  • 举报
回复
最好还是不要屏蔽...
笑的自然 2009-05-21
  • 打赏
  • 举报
回复
目前只能用关键字,以现在的技术还做不到按语义来过滤。。。
robyjeffding 2009-05-21
  • 打赏
  • 举报
回复
顶一下!
zhu_lu_ren 2009-05-21
  • 打赏
  • 举报
回复
这个问题相当的复杂,关键字法可行还是可行,当存在效率不高的缺点,我觉得要从图片上下功夫
vampireallen 2009-05-21
  • 打赏
  • 举报
回复
用ETL分析举报量和举报类型
mike_24 2009-05-21
  • 打赏
  • 举报
回复
找几个色情网站,看它的头部是如何写的
myairland 2009-05-21
  • 打赏
  • 举报
回复
这种网站越来越难判断了,以前我们教授做了一个专门过滤黄色图片的工具,以前还能正常运行,现在我用了一下,MOP都会被屏蔽........
ldg_2 2009-05-21
  • 打赏
  • 举报
回复
[Quote=引用 12 楼 IamstudyingJava 的回复:]
如果是一个正规网站,它上面说了哪些是黄色网站,肯定会有些有关黄色的关键词,又怎么判断了?
[/Quote]

这本身并没有万全的解决策略,网站的内容千变万化,不可能智能到那种程度,所谓的人工智能也只是初步的模仿人的一些思维习惯,距离实用还差得远。
LinuxfFine 2009-05-21
  • 打赏
  • 举报
回复
还真有难度,让网民举报比较合适,有些东西不是纯技术能解决了。技术只能提供个参考。
IamstudyingJava 2009-05-21
  • 打赏
  • 举报
回复
如果是一个正规网站,它上面说了哪些是黄色网站,肯定会有些有关黄色的关键词,又怎么判断了?
yami251139 2009-05-21
  • 打赏
  • 举报
回复
万一你抓的那个网站,根本就不是黄色网站,但是他上面的广告是,你怎么判断
码YouMe 2009-05-21
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 xnjnmn 的回复:]
引用 5 楼 wangzhuoyan 的回复:
关键字都是哪些啊?


.........




很黄很BT
[/Quote]
很傻很TZ
  • 打赏
  • 举报
回复
有些网站的确有,关键字就是那些很黄很类似广告的那些,你自己上网浏览一下会出现很多吧,
lxtlxtlxt 2009-05-21
  • 打赏
  • 举报
回复
关键词可能会有很多,所以对效率表示怀疑。
另外还有只读取网站首页内容,可能不准,又不能读取网页里的所有链接,该怎么限制呢?
加载更多回复(7)
基于 NSFW Model 色情图片识别鉴黄 后面更新视频检测 项目背景: 随着互联网的快速发展,网络上的信息量呈现出爆炸式的增长。然而,互联网上的内容良莠不齐,其中不乏一些不良信息,如色情、暴力等。这些信息对青少年的健康成长和社会风气产生了不良影响。为了净化网络环境,保护青少年免受不良信息的侵害,我国政府加大了对网络内容的监管力度。在此背景下,本项目应运而生,旨在实现对网络图片和视频的自动识别与过滤,助力构建清朗的网络空间。 项目简介: 本项目基于 NSFW(Not Safe For Work)Model,利用深度学习技术对色情图片进行识别与鉴黄。NSFW Model 是一种基于卷积神经网络(CNN)的图像识别模型,通过学习大量的色情图片和非色情图片,能够准确地判断一张图片是否含有色情内容。本项目在 NSFW Model 的基础上,进一步优化了模型结构,提高了识别的准确率和效率。 项目功能: 色情图片识别:用户上传图片后,系统会自动调用 NSFW Model 对图片进行识别,判断图片是否含有色情内容。如果含有色情内容,系统会给出相应的提示,并阻止图片的传播。 视频检测:针对网络视频,本项目采用帧提取技术,将视频分解为一帧帧图片,然后使用 NSFW Model 对这些图片进行识别。如果检测到含有色情内容的图片,系统会给出相应的提示,并阻止视频的传播。 实时监控:本项目可应用于网络直播、短视频平台等场景,实时监控画面内容,一旦检测到含有色情内容的画面,立即进行屏蔽处理,确保网络环境的纯洁。
放心孩子独自上网吗? 欢迎使用 网页吸尘器,实时过滤黄色、暴力、赌博等不良互联网内容。 使用过互联网的用户可能发现互联网是个大宝藏,但同时也是个垃圾场。尤其对未成年的孩子来说,泛滥成灾的暴力、色情和赌博网站,不异于一个一个的黑洞,玷污了孩子幼小的心灵甚至造成了终生的阴影。正因为如此,许多社会学家和教育学者都呼吁控制网络不健康信息的泛滥。网络卫士提出和运用了一套信息分类智能模糊算法(ICIA),智能实时高效地分析过滤不健康网页内容, 其所推出的网页吸尘器是运用此项专有技术的专业内容过滤软件,全面滤除互联网不健康信息,保护未成年人的身心健康。 网页吸尘器采用先进的网址拦截和智能内容过滤技术对浏览网页进行实时监控。用户可以分别对赌博、色情和暴力设置不同的限制级别。当用户访问有赌博、色情和暴力内容的网页时,或者在搜索引擎中搜索这些网页时,网页吸尘器会根据限制级别,运用智能判断算法截获受限网页,阻止相关访问请求,并且给访问者以警示信息。此外,软件中拥有的受限访问历史记录使家长和老师对孩子的上网一目了然。不仅适用于家庭用户,而且可以广泛应用于学校,机房,网吧等场所。 网页吸尘器如同一个在线监督老师,时刻掌握着孩子在网上的一举一动。如有违规,立刻禁止。当然,在保护孩子不受互联网不健康信息影响的同时,家长可以不受内容限制,访问任何网站。 *有害内容过滤 用户可以分别对赌博、色情和暴力内容设置不同的访问限制级别。当用户访问有赌博、色情和暴力内容的网页时,或者在搜索引擎中搜索这些网页时,网页吸尘器使用智能判断算法并根据限制级别,截获受限网页,阻止相关访问请求,并且给访问者以警示信息。 *网站地址过滤 用户还可以屏蔽一些网站地址,不进行内容过滤。比如对一些游戏或娱乐网站永远允许或永远禁止。 *网页级的过滤 网页吸尘器是工作在网页级的产品。一个网站中有很多网页,网页吸尘器只是禁止那些不健康的网页,而对于健康的网页,用户仍然可以访问。 *搜索引擎过滤 有证据表明,大部分人是通过搜索引擎查找赌博、色情和暴力网站的,网页吸尘器能监控所有搜索引擎,当用户搜索这些网站或网页时,网页吸尘器能立刻进行屏蔽。 *实时监控 网页吸尘器是一种实时监控产品,即利用现有的智能算法实时检测,不需要繁杂的产品升级。例如有些产品是通过不断更新受限网址数据库来达到拦截的目的。这种数据库的更新速度往往赶不上网站内容的更新。比如一个网站可能原先认为是合法的网站,但是突然加入了暴力内容,数据库并不能立即觉察出这种变化。 *独特的网站锁定模式 在这种模式下,用户只能访问由管理者事先设置好的几个网站,其他网站则无法访问。这特别适合学校,家庭和某些专业应用场合使用,可以彻底杜绝用户访问不该访问网站的忧虑! *先进的智能判断算法 网页吸尘器采用特殊的数学模糊判断算法,根据多种因素智能判断网页是否该屏蔽,成功率在98%以上。 *超强的自我保护 网页吸尘器采用特殊的系统还原技术,使得用户无法删除网页吸尘器的系统文件,从而达到保护自我的功能。 *与Windows系统无缝集成 网页吸尘器提供Windows系统的全面支持并和微软的IE浏览器无缝集成工作。 *受限访问记录支持 用户可以根据时间、网址、禁止原因查询相关的访问历史记录。 *多种内码内容支持 网页吸尘器目前支持对英文、日文和各种中文编码的内容过滤,今后还会支持世界其他语言的内容过滤。 *隐藏进程和相关界面 对于Windows 95/98/ME用户,网页吸尘器可以隐藏进程,使用户无法查找。对于所有Windows用户,网页吸尘器可以隐藏所有相关界面信息,比如:产品标示,图标,提示信息等等。用户在使用网络过滤和监控的同时,无法察觉网页吸尘器的存在。 *代理支持 网页吸尘器支持通过代理服务器上网的用户。 *在线升级 用户可以免费在线升级网页吸尘器。网页吸尘器采用在线升级策略,减少用户的安装次数。

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧