关于IMDB评分标准算法的应用

willwen 2010-01-15 11:13:16
IMDB评分标准具体算法如下:
IMDb的评分包括两个分值,一个是算术平均值(arithmetic mean),一个是中值(median)。算术平均值大概就是平均数,中值是统计学中的中间数值,该值和比它大及比它小的数值是等差的。而最后我们查到的分数却既不是算术平均值,也不是中值。
  IMDb的评分计算方法不是就做一下平均就ok了,在它的网页上也提到了它的计算方法是保密的。不过IMDb250佳影片用的是贝叶斯定理得出的加权分(Weighted Rank-WR),公式如下:weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
  其中:
  R = average for the movie (mean) = (Rating) (是用普通的方法计算出的骄郑?br>v = number of votes for the movie = (votes) (投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)
  m = minimum votes required to be listed in the top 250 (currently 1250) (进入imdb top 250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)
  C = the mean vote across the whole report (currently 6.9) (目前所有电影的平均得分)
  此外,还有一个重点,根据这个注释:note: for this top 250, only votes from regular voters are considered.
  只有'regular voters'的投票才会被计算在IMDB top 250之内,这就是IMDb防御因为某种电影的fans拉票而影响top 250结果,把top 250尽量限制在资深影迷投票范围内的主要方法。regular voter的标准不详,估计至少是“投票电影超过xxx部以上”这样的水平,搞不好还会加上投票的时间分布,为支持自己的心爱电影一天内给N百部电影投票估计也不行。
  因此,细心的人可以注意到,列入IMDb top 250的电影,其主页面上的分数与250列表中的分数是不同的。以魔戒1为例,它在自己的页面中的分数是8.8,而列表中是8.7。一般250表中的得分都会低于自己页面中的得分,越是娱乐片差距越大。这大概是因为regular voter对于电影的要求通常较高的关系。) 而IMDb的过人之处不仅仅在于这儿,它除了给出分数,还给了一个更详细的投票人的列表
参考自:http://baike.baidu.com/view/50771.htm?fr=ala0_1_1

请问一下这一评分标准除了应用在电影杂志方面的评分之外,能否用在类似淘宝信用评价或者能力评价上?
...全文
420 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
yananguo_1985 2010-01-16
  • 打赏
  • 举报
回复
SF
水惊鱼 2010-01-15
  • 打赏
  • 举报
回复
不知道。。。。。。。。。。。。闪了。。。
资源下载链接为: https://pan.quark.cn/s/9ce3e35e0f39 IMDB数据集是自然语言处理(NLP)领域一个经典且重要的资源,常被用于情感分析、文本分类等任务的研究。它包含5万条来自Internet Movie Database的用户对电影的评论,这些评论是用户对电影的主观评价,有正面赞赏和负面批评两种。数据集分为训练集和测试集,每部分各有25000条评论,且正负评论比例均为50%,保证了数据的平衡性,使其成为情感分析模型训练的理想选择。情感分析是NLP中一项关键技术,目的是识别和提取文本中的主观信息,尤其是情感倾向。通过对IMDB数据集的评论进行情感分类,能了解公众对电影的总体感受,对市场研究、品牌管理、社交媒体监控等领域都有广泛应用。 使用IMDB数据集时,一般步骤是先进行数据预处理,包括去除无关字符,像标点符号、数字等,还要进行词干提取、去除停用词,以减少噪声,提升模型性能。然后是特征提取,可采用词袋模型、TF-IDF,或词嵌入方法,如Word2Vec、GloVe等。模型构建上,可使用传统机器学习算法,如朴素贝叶斯、支持向量机,也可用深度学习方法,像循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制等。测试集用于评估模型泛化能力,防止过拟合,通过计算准确率、精确率、召回率、F1分数等指标,了解模型在未见过数据上的表现,AUC-ROC曲线也是衡量二分类模型性能的重要工具,尤其在类别不平衡时。研究中常见的改进策略有集成学习、模型融合、调整超参数、使用复杂模型结构,以及引入预训练模型(如BERT、RoBERTa)进行微调,这些方法可提升模型准确性和鲁棒性,更好地应对IMDB数据集挑战。IMDB数据集是NLP研究和实践者探索情感分析、文本分类技术的重要平台,不断优化创新,有助于构建更智能的自然语言处理系统,服务实际应用

690

社区成员

发帖
与我相关
我的任务
社区描述
提出问题
其他 技术论坛(原bbs)
社区管理员
  • community_281
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧