社区
Web 开发
帖子详情
如何判断一个网站是色情网站?
lxtlxtlxt
2009-05-21 03:05:52
现有一批网站,该如何用JAVA判断网站中含有不良信息呢?
现在的想法是读取网站的首页内容,然后选择不良关键字匹配,
不知道这个方法效果、效率会怎样?
可有有这方面经验的?
...全文
5394
27
打赏
收藏
如何判断一个网站是色情网站?
现有一批网站,该如何用JAVA判断网站中含有不良信息呢? 现在的想法是读取网站的首页内容,然后选择不良关键字匹配, 不知道这个方法效果、效率会怎样? 可有有这方面经验的?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
27 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
lxtlxtlxt
2009-05-22
打赏
举报
回复
感谢大家的回复。
关键字肯定是要匹配的,现在遇到的问题是,
单凭网站的首页可能无法判断是否是黄色网站,
这就需要类似网络爬虫的东西,对首页里的链接做类似首页操作,
一般网页里的链接比较多,所以有没有什么方法可以有选择的选取部分链接,而不是全部。
liu_zhaoqf
2009-05-22
打赏
举报
回复
mark
money8899
2009-05-22
打赏
举报
回复
可以随时增加的关键字库。,做一个黑名单处理
pathuang68
2009-05-22
打赏
举报
回复
我觉得楼主的想法是可行的,关键是要建立一个全面的,可以随时增加的关键字库。
shuai45
2009-05-22
打赏
举报
回复
我的觉得可以从以下几个方向入手:
1:关键字过滤。页面一般都会在head中加入关键字和关键内容。取得页面头部信息,进行过滤。(不能说全部有效,至少可以过滤一些黄色网站)
2:与网络监督机构取得联系。他们回有黄色网站的相关地址和信息。(也可以屏蔽一些黄色网站)
黄色网站 单从技术上根本不能彻底判断。如果可以的话 把你写的这套东西可以卖给国家,挣些钱了。
所以,能避免的尽量避免,做不到的也是无奈。
dongjh411526
2009-05-22
打赏
举报
回复
主要是看关键字!
orz_ORZ_orz
2009-05-21
打赏
举报
回复
最好还是不要屏蔽...
笑的自然
2009-05-21
打赏
举报
回复
目前只能用关键字,以现在的技术还做不到按语义来过滤。。。
robyjeffding
2009-05-21
打赏
举报
回复
顶一下!
zhu_lu_ren
2009-05-21
打赏
举报
回复
这个问题相当的复杂,关键字法可行还是可行,当存在效率不高的缺点,我觉得要从图片上下功夫
vampireallen
2009-05-21
打赏
举报
回复
用ETL分析举报量和举报类型
mike_24
2009-05-21
打赏
举报
回复
找几个色情网站,看它的头部是如何写的
myairland
2009-05-21
打赏
举报
回复
这种网站越来越难判断了,以前我们教授做了一个专门过滤黄色图片的工具,以前还能正常运行,现在我用了一下,MOP都会被屏蔽........
ldg_2
2009-05-21
打赏
举报
回复
[Quote=引用 12 楼 IamstudyingJava 的回复:]
如果是一个正规网站,它上面说了哪些是黄色网站,肯定会有些有关黄色的关键词,又怎么判断了?
[/Quote]
这本身并没有万全的解决策略,网站的内容千变万化,不可能智能到那种程度,所谓的人工智能也只是初步的模仿人的一些思维习惯,距离实用还差得远。
LinuxfFine
2009-05-21
打赏
举报
回复
还真有难度,让网民举报比较合适,有些东西不是纯技术能解决了。技术只能提供个参考。
IamstudyingJava
2009-05-21
打赏
举报
回复
如果是一个正规网站,它上面说了哪些是黄色网站,肯定会有些有关黄色的关键词,又怎么判断了?
yami251139
2009-05-21
打赏
举报
回复
万一你抓的那个网站,根本就不是黄色网站,但是他上面的广告是,你怎么判断
码YouMe
2009-05-21
打赏
举报
回复
[Quote=引用 7 楼 xnjnmn 的回复:]
引用 5 楼 wangzhuoyan 的回复:
关键字都是哪些啊?
.........
很黄很BT
[/Quote]
很傻很TZ
向大牛学习人工智能
2009-05-21
打赏
举报
回复
有些网站的确有,关键字就是那些很黄很类似广告的那些,你自己上网浏览一下会出现很多吧,
lxtlxtlxt
2009-05-21
打赏
举报
回复
关键词可能会有很多,所以对效率表示怀疑。
另外还有只读取网站首页内容,可能不准,又不能读取网页里的所有链接,该怎么限制呢?
加载更多回复(7)
基于 NSFW Model 色情图片识别鉴黄 后面更新视频检测.zip
基于 NSFW Model 色情图片识别鉴黄 后面更新视频检测 项目背景: 随着互联网的快速发展,网络上的信息量呈现出爆炸式的增长。然而,互联网上的内容良莠不齐,其中不乏一些不良信息,如色情、暴力等。这些信息对青少年的健康成长和社会风气产生了不良影响。为了净化网络环境,保护青少年免受不良信息的侵害,我国政府加大了对网络内容的监管力度。在此背景下,本项目应运而生,旨在实现对网络图片和视频的自动识别与过滤,助力构建清朗的网络空间。 项目简介: 本项目基于 NSFW(Not Safe For Work)Model,利用深度学习技术对色情图片进行识别与鉴黄。NSFW Model 是一种基于卷积神经网络(CNN)的图像识别模型,通过学习大量的色情图片和非色情图片,能够准确地
判断
一张图片是否含有色情内容。本项目在 NSFW Model 的基础上,进一步优化了模型结构,提高了识别的准确率和效率。 项目功能: 色情图片识别:用户上传图片后,系统会自动调用 NSFW Model 对图片进行识别,
判断
图片是否含有色情内容。如果含有色情内容,系统会给出相应的提示,并阻止图片的传播。 视频检测:针对网络视频,本项目采用帧提取技术,将视频分解为一帧帧图片,然后使用 NSFW Model 对这些图片进行识别。如果检测到含有色情内容的图片,系统会给出相应的提示,并阻止视频的传播。 实时监控:本项目可应用于网络直播、短视频平台等场景,实时监控画面内容,一旦检测到含有色情内容的画面,立即进行屏蔽处理,确保网络环境的纯洁。
论文研究-基于肤色和行为的色情视频检测.pdf
传统色情视频识别方法大多是色情图像识别方法的直接扩展,没有考虑到“行为”这一包含在色情视频中的关键信息。光流上下文直方图能描述运动物体的连续动作,基于此,提出了一种新的用于描述行为的特征——光流上下文直方图(OFCH),并采用主成分分析(PCA)进行特征降维,得到的PCA-OFCH特征用于训练敏感行为识别器;同时采用基于直方图技术的贝叶斯肤色预测模型对视频中是否含有足够的肤色信息进行
判断
,以降低对正常行为的误报率。实验结果表明,提出的基于PCA-OFCH特征结合肤色检测能有效地对色情视频和正常视频进行鉴别,为色情视频识别提供了新的思路。
网页吸尘器
放心孩子独自上网吗? 欢迎使用 网页吸尘器,实时过滤黄色、暴力、赌博等不良互联网内容。 使用过互联网的用户可能发现互联网是个大宝藏,但同时也是个垃圾场。尤其对未成年的孩子来说,泛滥成灾的暴力、色情和赌博
网站
,不异于
一个
又
一个
的黑洞,玷污了孩子幼小的心灵甚至造成了终生的阴影。正因为如此,许多社会学家和教育学者都呼吁控制网络不健康信息的泛滥。网络卫士提出和运用了一套信息分类智能模糊算法(ICIA),智能实时高效地分析过滤不健康网页内容, 其所推出的网页吸尘器是运用此项专有技术的专业内容过滤软件,全面滤除互联网不健康信息,保护未成年人的身心健康。 网页吸尘器采用先进的网址拦截和智能内容过滤技术对浏览网页进行实时监控。用户可以分别对赌博、色情和暴力设置不同的限制级别。当用户访问有赌博、色情和暴力内容的网页时,或者在搜索引擎中搜索这些网页时,网页吸尘器会根据限制级别,运用智能
判断
算法截获受限网页,阻止相关访问请求,并且给访问者以警示信息。此外,软件中拥有的受限访问历史记录使家长和老师对孩子的上网一目了然。不仅适用于家庭用户,而且可以广泛应用于学校,机房,网吧等场所。 网页吸尘器如同
一个
在线监督老师,时刻掌握着孩子在网上的一举一动。如有违规,立刻禁止。当然,在保护孩子不受互联网不健康信息影响的同时,家长可以不受内容限制,访问任何
网站
。 *有害内容过滤 用户可以分别对赌博、色情和暴力内容设置不同的访问限制级别。当用户访问有赌博、色情和暴力内容的网页时,或者在搜索引擎中搜索这些网页时,网页吸尘器使用智能
判断
算法并根据限制级别,截获受限网页,阻止相关访问请求,并且给访问者以警示信息。 *
网站
地址过滤 用户还可以屏蔽一些
网站
地址,不进行内容过滤。比如对一些游戏或娱乐
网站
永远允许或永远禁止。 *网页级的过滤 网页吸尘器是工作在网页级的产品。
一个
网站
中有很多网页,网页吸尘器只是禁止那些不健康的网页,而对于健康的网页,用户仍然可以访问。 *搜索引擎过滤 有证据表明,大部分人是通过搜索引擎查找赌博、色情和暴力
网站
的,网页吸尘器能监控所有搜索引擎,当用户搜索这些
网站
或网页时,网页吸尘器能立刻进行屏蔽。 *实时监控 网页吸尘器是一种实时监控产品,即利用现有的智能算法实时检测,不需要繁杂的产品升级。例如有些产品是通过不断更新受限网址数据库来达到拦截的目的。这种数据库的更新速度往往赶不上
网站
内容的更新。比如
一个
网站
可能原先认为是合法的
网站
,但是突然加入了暴力内容,数据库并不能立即觉察出这种变化。 *独特的
网站
锁定模式 在这种模式下,用户只能访问由管理者事先设置好的几个
网站
,其他
网站
则无法访问。这特别适合学校,家庭和某些专业应用场合使用,可以彻底杜绝用户访问不该访问
网站
的忧虑! *先进的智能
判断
算法 网页吸尘器采用特殊的数学模糊
判断
算法,根据多种因素智能
判断
网页是否该屏蔽,成功率在98%以上。 *超强的自我保护 网页吸尘器采用特殊的系统还原技术,使得用户无法删除网页吸尘器的系统文件,从而达到保护自我的功能。 *与Windows系统无缝集成 网页吸尘器提供Windows系统的全面支持并和微软的IE浏览器无缝集成工作。 *受限访问记录支持 用户可以根据时间、网址、禁止原因查询相关的访问历史记录。 *多种内码内容支持 网页吸尘器目前支持对英文、日文和各种中文编码的内容过滤,今后还会支持世界其他语言的内容过滤。 *隐藏进程和相关界面 对于Windows 95/98/ME用户,网页吸尘器可以隐藏进程,使用户无法查找。对于所有Windows用户,网页吸尘器可以隐藏所有相关界面信息,比如:产品标示,图标,提示信息等等。用户在使用网络过滤和监控的同时,无法察觉网页吸尘器的存在。 *代理支持 网页吸尘器支持通过代理服务器上网的用户。 *在线升级 用户可以免费在线升级网页吸尘器。网页吸尘器采用在线升级策略,减少用户的安装次数。
is-dirty:
一个
非常幼稚的分类器,用于
判断
句子中是否包含脏词
是脏的
一个
非常幼稚的分类器,用于
判断
句子中是否包含脏词。 很好地适用于英语,并且可以处理流行的西班牙语,印尼语,阿拉伯语和北印度语显性词。 动机 我Swift编写了此脚本,以找出给定列表中有多少色情/露骨的结果的合理近似值。 我找不到足够简单的脚本即插即用。 所以我搞砸了。 这个怎么运作 本质上,该算法具有
一个
显式单词的语料库(我提供了主要的英语语料库,但是我添加了其他语言的足够流行的名词)。 该脚本需要
一个
句子列表,每行
一个
,然后检查是否有任何显式单词作为每行的子字符串。 (请检查警告部分) 哪一行具有潜在的显式内容,都将被写入与原始文件同名的新文件,并带有要检查的句子列表,但最后添加“ .porny”扩展名。 同样,所有假定的干净行都将添加到新文件中,该文件的名称与原始文件的名称相同,但最后添加“ .regular”扩展名。 我添加了
一个
约2500个句子的示例列表以及
一个
示例。
多语言敏感词/违禁词审核,对色情、涉政、暴恐、敏感、广告、谩骂等违法低质内容进行识别及返回审核结果
本文件对多语言文本中的色情、涉政、暴恐、敏感、广告、谩骂等违法低质内容进行识别及过滤,并实时返回审核结果,适用聊天内容、新闻内容、AIGC审核,相对比大厂的价格更低效果更好,返回结果更加精细,可根据返回结果自行
判断
是否放行。 字数限制:同步文本识别接口最大支持 2, 000 个字符识别。
Web 开发
81,092
社区成员
341,716
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章