社区
PHP
帖子详情
IMDb 数据导入到数据库
www5amm
2013-12-31 01:14:59
最近发现IMDb提供了影视资料的数据。
搜索了一些资料后,发现了php可以直接导入这些数据到数据库。
不会资料的好多操作都是在linux下面的
可惜我只会在window平台上上,还只会JAVA.
不知道大神们有没有什么好办法把IMDb 数据导入到数据库
...全文
163
回复
打赏
收藏
IMDb 数据导入到数据库
最近发现IMDb提供了影视资料的数据。 搜索了一些资料后,发现了php可以直接导入这些数据到数据库。 不会资料的好多操作都是在linux下面的 可惜我只会在window平台上上,还只会JAVA. 不知道大神们有没有什么好办法把IMDb 数据导入到数据库
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
import_
imdb
:将
IMDB
数据
导入
AgensGraph
import_
imdb
该脚本将从
IMDB
py创建的关系
数据
库中
导入
IMDB
数据
到AgensGraph中。 是一个基于PostgreSQL图形
数据
库平台,可通过SQL和用于图形
数据
库的Cypher查询语言进行查询。 将
IMDB
数据
表示为图形
数据
有助于提供一种直观的方式来查询和可视化演员和工作人员及其工作之间的联系。 入门 先决条件 下载您可以下载以下ftp命令: wget -r -l1 -np -nd -P data ftp://ftp.fu-berlin.de/pub/misc/movies/database/ 安装 。
IMDb
Py是一个Python软件包,可帮助开发人员使用
IMDb
数据
库开发程序。 脚本“
imdb
py2sql.py”将用于将
IMDb
数据
库CSV文件作为关系
数据
库
导入
到Agensgraph中。 注意:从2017年12月开始,新的
IMDb
数据
重新设计使
IMDb
数
IMDB
-Backend:用Golang编写的基于
IMDb
数据
集的搜索管理系统
IMDB
后端
数据
库课设-
IMDB
发现系统(合并仓库) 进阶搜寻名称 参数 回复 职称 清单标题 参数 回复 获取标题回复 创建标题 参数 回复 更新标题 参数 回复 删除标题回复 获取标题详细信息回复 名字 清单名称 参数 回复 取个名字回复 创建一个名字 参数 回复 更新名称 参数 回复 删除名字回复 校长 取得校长回复 创建一个校长 参数 回复 更新主体 参数 回复 删除主体回复 版权 源
数据
库SQL文件
数据
源为
IMDb
,SQL文件中的所有
数据
均截至2018.06.01 。 这是SQL文件链接: https : //pan.baidu.com/s/1WcZZB7j-nbMRhp4MwZhRXA 密码:h3zj 注意:如果您的计算机有足够的内存(> = 4 GiB),则应使用
imdb
_2018_06_01_extended_insert.sql文件来提高
导入
速度。 否则,如
电影
数据
分析.docx
一、
数据
分析项目介绍 1. 项目所需的模块库介绍 pandas用法: 需要
导入
以下模块 import numpy as np import pandas as pd from pandas import Series, Dataframe 2.项目背景介绍 互联网电影资料库(Internet Movie Database,简称
IMDB
)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线
数据
库。电影作为艺术和娱乐载体已成为我们生活中的一部分,作为电影爱好者之一,希望通过分析了解电影市场大体情况,以便于以后选择电影观看。 使用的
数据
是
IMDB
美国票房排名前1000的电影
数据
,
数据
包含了电影名称,票房金额,上映年份,演职人员,
IMDB
评分,电影类型等信息,
数据
中的很多电影大家也比较熟悉。相信不少人都有这样的经历,当想要看一部电影的时候,会去百度一下谁是导演,谁是主演。如果导演是克里斯托弗•诺兰,心里已经给电影打了个8分以上的评分了。而阿汤哥的动作片,预期也都能肾上腺素飙升。对于已上映的电影,不少人会去豆瓣搜索现时的评分,或是前作的评价,若是豆瓣高分、高评论数,也会按奈不住去蹭下热度。如果要去电影院观看的话,想必不少人会更倾向选择动作片或者科幻大片这类特效丰富,影音冲击强烈的电影。近几年特效技术和3D动画的日渐成熟,影院观影已经是越来越多人的第一选择。
IMDB
的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是
IMDB
评分。 截至2018年6月21日,
IMDB
共收录了4,734,693部作品资料以及8,702,001名人物资料。 3.项目所需
数据
介绍
数据
的属性包括:电影名称、评论数、评分、导演、上映时间、上映国家、主要演员、语言、
IMDB
评分等。 理解
数据
: color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_
imdb
_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、
imdb
_score 、aspect_ratio 、movie_facebook_likes 4.项目功能详细介绍 显示电影评分分布的情况; 电影数量与平均分年度变化的情况; 评论家评论数与评分的关系; 评分与电影票房的关系; 电影数量大于5前提下平均分前十的导演推荐的
数据
; 不同电影类型的年份累计分析; 电影时长的分布及时长是否和评分有相关性; 电影时长的分布及时长是否和评分有相关性。 二、
数据
分析过程 1.主要功能实现的类和方法介绍 # 清洗runtime电影时长列
数据
,可使用str.split()方法 df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int) df['runtime'].head() # 清洗year列,使用str[:]选取年份数字并转换成int类型,使用df.unique()方法检查
数据
df['year'] = df['year'].str[-5:-1].astype(int) df['year'].unique() 2.
数据
分析过程代码和解释说明
导入
包:
导入
、查看、清洗
数据
: 评分分布图: 电影数量与平均分布年度变化: 评论家评论数&评分、评分&票房: 电影数量大于5平均分前十的导演: 统计不同年份、不同类型电影的数量: cumsum = df.groupby(['main_genre', 'year']).title.count() # 使用累加功能统计1980年起不同年份不同电影类型的累计数量,对于中间出现的缺失值,使用前值填充 genre_cumsum = cumsum.unstack(level=0).cumsum().ffill() # 只选取总数量大于50的电影类型
数据
genre_cumsum = genre_cumsum.loc[:,genre_cumsum.iloc[-1,:] >= 50] # 根据电影类型统计
数据
作图 fig, ax2 = plt.subplots(figsize=(12,6)) genre_cumsum.plot(ax=ax12, legend=False, linewidth=3) # 添加
数据
标签 for i in last_row.iteritems(): if i[0] == 'Adventure' or i[0] == 'Biography' or i[0] == 'Horror': ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]-5), fontsize=12) else: ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]+5), fontsize=12) # 美化图表 ax2.set_title('The Aggregate Movies of Different Genres Over Years', fontsize=16) ax2.spines['top'].set_visible(False) ax2.spines['right'].set_visible(False) ax2.spines['left'].set_visible(False) ax2.tick_params(bottom=True, labelleft=False) ax2.set_xlabel('') plt.tight_layout() 电影时长的分布及时长是否和评分有相关性: fig, ax4 = plt.subplots() df['runtime_min'].hist(range=(70,210), bins=14, color=(114/255,158/255,206/255)) ax4.set_title('The Runtime Distribution of US Top Box Office Movies') ax4.spines['top'].set_visible(False) ax4.spines['left'].set_visible(False) ax4.spines['right'].set_visible(False) ax4.set_xticklabels(np.arange(70,220,10)) ax4.set_xticks(np.arange(70,220,10)) ax4.grid() 绘制时长和
IMDB
评分相关性: fig = plt.figure(figsize=(14,7)) sns.lmplot(data=df, x='runtime_min', y='
imdb
_rate') sns.despine() 三、
数据
分析结果评估 1、评分分布主要在5.0~8.0之间,3.0以下和9.0以上分布很少。如果8.0算为优秀,则优秀电影占比较少。 2、电影数量在1990~2000年间快速增长,2009年达到较高值。而电影的平均分整体上呈下降趋势。 3、评论家评论数与评分整体呈正相关关系,500以上评论家评论数对应的评分都高于6.0。 4、评分与票房整体呈正相关关系,但关系不强。
IMDB
评分人数和电影票房的相关性很弱,高票房不代表评分人数多,低票房电影也能有大量的
IMDB
评分人数。 5、电影数量大于5平均分前十的导演:Christopher Nolan、Quentin Tarantino 、 Stanley Kubrick、 James Cameron 、Peter Jackson 、Alejandro G. Iñárritu 、David Fincher 、Martin Scorsese 、 Wes Anderson 、Paul Greengrass。 6. 前五大电影类型分别是动作片Action,喜剧片Comedy,动画片Animation,剧情片Drama,冒险片Adventure。1995年之前,动作片和喜剧片都是影院观众最喜爱的电影类型,对应的高票房数量不分伯仲,剧情片是另一相对流行的电影类型。1995年后,高票房的动作片快速增长,甩开了喜剧片。喜剧片随仍是高票房数量第二多的电影类型,但近几年增速明显放缓。高票房动画片进入榜单的时间最晚,但在1998年前后迎来明显增长,此后的十年里完成了对剧情片和冒险片的超越。如果动画片保持目前的增速,有望在之后的十几二十年里超越喜剧片,成为高票房数量第二的电影类型。 7. 时长和
IMDB
评分呈一定的相关性,时长短的电影既有高分也有低分,但时长超过160分钟的电影基本都能获得6分以上的分数,时长最长的两部电影甚至得到了接近9分的超高得分,
IMDB
评分接近或低于4分的电影时长均小于130分钟。丰富的剧情和长长的故事也许也是一种容易感染观众的方式,这也和之前提到的好的故事打动观众相呼应。 四、总结
数据
分析的过程往往是一个从宏观到微观的过程。先从宏观上把握
数据
大体的情况,大胆地提出假设,然后再将
数据
进行细分,小心地求证。通过
数据
的对比,就很容易看出调整的效果。 有关活动效果的
数据
分析往往也会涉及
数据
的对比。具体的思路是从要分析的目的入手,首先思考造成这种情况的可能原因有什么,再从每个可能的原因中找到相应的
数据
,与要分析的目的的
数据
进行比较,看哪一个是造成该情况发生的主要原因。 这里要用到的是excel的图表工具,把每一种可能的
数据
都作出一个图表,与要分析的目的的
数据
图表进行比较,如果有某一个
数据
的变化曲线与之相差不多,则可以说这个所对应的原因是造成该情况发生的主要原因。 以上是分析活动的一些核心
数据
,核心
数据
的分析是最主要的,因为这直接反应了该活动最本质的效果。
matlab
导入
excel代码-My-Datacamp-Projects:我的
数据
营项目
matlab
导入
excel代码DataCamp项目 我的笔记本到Datacamp项目。 Python 项目 描述 A Visual History of Nobel Prize Winners 探索来自Kaggle的
数据
集,其中包含一个世纪以来的诺贝尔奖获得者。 谁赢了? 谁被冷落了? Classify Song Genres from Audio Data 摇滚还是说唱? 在Python中应用机器学习方法将歌曲分类为流派。 Exploring 67 years of LEGO 在这个项目中,我们将探索建立的每个乐高玩具的
数据
库。 Find Movie Similarity from Plot Summaries 使用NLP并对
IMDb
和Wikipedia的电影情节摘要进行聚类,以量化电影的相似性。 Predicting Credit Card Approvals 建立机器学习模型,以预测信用卡申请是否会获得批准。 The Android App Market on Google Play 加载,清理和可视化抓取的Google Play商店
数据
,以了解Android应用市场。 The
MovieDatabase
电影
数据
库 需要安装了 MySQL 的 Windows 机器。 该程序将 Movies 目录或电影文件作为输入。 它在 MySQL
数据
库中为输入目录中的电影文件或电影文件创建条目。 如果整个源作为输入目录传递,程序将刷新整个表,即删除并再次插入。 这个程序内部调用windows批处理文件来
导入
MySQL DB中的
数据
。 该程序还将调用
IMDB
API 来获取电影的评分并插入到
数据
库中。 PS:这个程序是为学习目的而制作的,所以可以有更好的方法来做到这一点。
PHP
20,359
社区成员
19,658
社区内容
发帖
与我相关
我的任务
PHP
“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
复制链接
扫一扫
分享
社区描述
“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
php
phpstorm
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章