IMDb 数据导入到数据库

www5amm 2013-12-31 01:14:59

最近发现IMDb提供了影视资料的数据。
搜索了一些资料后，发现了php可以直接导入这些数据到数据库。
不会资料的好多操作都是在linux下面的
可惜我只会在window平台上上，还只会JAVA.
不知道大神们有没有什么好办法把IMDb 数据导入到数据库

...全文

163 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

import_imdb 该脚本将从IMDBpy创建的关系数据库中导入IMDB数据到AgensGraph中。是一个基于PostgreSQL图形数据库平台，可通过SQL和用于图形数据库的Cypher查询语言进行查询。将IMDB数据表示为图形数据有助于提供一种直观的方式来查询和可视化演员和工作人员及其工作之间的联系。入门先决条件下载您可以下载以下ftp命令： wget -r -l1 -np -nd -P data ftp://ftp.fu-berlin.de/pub/misc/movies/database/ 安装。 IMDbPy是一个Python软件包，可帮助开发人员使用IMDb数据库开发程序。脚本“ imdbpy2sql.py”将用于将IMDb数据库CSV文件作为关系数据库导入到Agensgraph中。注意：从2017年12月开始，新的IMDb数据重新设计使IMDb数

IMDB后端数据库课设-IMDB发现系统（合并仓库）进阶搜寻名称参数回复职称清单标题参数回复获取标题回复创建标题参数回复更新标题参数回复删除标题回复获取标题详细信息回复名字清单名称参数回复取个名字回复创建一个名字参数回复更新名称参数回复删除名字回复校长取得校长回复创建一个校长参数回复更新主体参数回复删除主体回复版权源数据库SQL文件数据源为IMDb ，SQL文件中的所有数据均截至2018.06.01 。这是SQL文件链接： https : //pan.baidu.com/s/1WcZZB7j-nbMRhp4MwZhRXA 密码：h3zj 注意：如果您的计算机有足够的内存（> = 4 GiB），则应使用imdb_2018_06_01_extended_insert.sql文件来提高导入速度。否则，如

一、数据分析项目介绍 1. 项目所需的模块库介绍 pandas用法：需要导入以下模块 import numpy as np import pandas as pd from pandas import Series, Dataframe 2.项目背景介绍互联网电影资料库（Internet Movie Database，简称IMDB）是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。电影作为艺术和娱乐载体已成为我们生活中的一部分，作为电影爱好者之一，希望通过分析了解电影市场大体情况，以便于以后选择电影观看。使用的数据是IMDB美国票房排名前1000的电影数据，数据包含了电影名称，票房金额，上映年份，演职人员，IMDB评分，电影类型等信息，数据中的很多电影大家也比较熟悉。相信不少人都有这样的经历，当想要看一部电影的时候，会去百度一下谁是导演，谁是主演。如果导演是克里斯托弗•诺兰，心里已经给电影打了个8分以上的评分了。而阿汤哥的动作片，预期也都能肾上腺素飙升。对于已上映的电影，不少人会去豆瓣搜索现时的评分，或是前作的评价，若是豆瓣高分、高评论数，也会按奈不住去蹭下热度。如果要去电影院观看的话，想必不少人会更倾向选择动作片或者科幻大片这类特效丰富，影音冲击强烈的电影。近几年特效技术和3D动画的日渐成熟，影院观影已经是越来越多人的第一选择。 IMDB的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDB评分。截至2018年6月21日，IMDB共收录了4,734,693部作品资料以及8,702,001名人物资料。 3.项目所需数据介绍数据的属性包括：电影名称、评论数、评分、导演、上映时间、上映国家、主要演员、语言、IMDB评分等。理解数据： color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes 4.项目功能详细介绍显示电影评分分布的情况；电影数量与平均分年度变化的情况；评论家评论数与评分的关系；评分与电影票房的关系；电影数量大于5前提下平均分前十的导演推荐的数据；不同电影类型的年份累计分析；电影时长的分布及时长是否和评分有相关性；电影时长的分布及时长是否和评分有相关性。二、数据分析过程 1.主要功能实现的类和方法介绍 # 清洗runtime电影时长列数据，可使用str.split()方法 df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int) df['runtime'].head() # 清洗year列，使用str[:]选取年份数字并转换成int类型，使用df.unique()方法检查数据 df['year'] = df['year'].str[-5:-1].astype(int) df['year'].unique() 2. 数据分析过程代码和解释说明导入包：导入、查看、清洗数据：评分分布图：电影数量与平均分布年度变化：评论家评论数&评分、评分&票房：电影数量大于5平均分前十的导演：统计不同年份、不同类型电影的数量： cumsum = df.groupby(['main_genre', 'year']).title.count() # 使用累加功能统计1980年起不同年份不同电影类型的累计数量，对于中间出现的缺失值，使用前值填充 genre_cumsum = cumsum.unstack(level=0).cumsum().ffill() # 只选取总数量大于50的电影类型数据 genre_cumsum = genre_cumsum.loc[:,genre_cumsum.iloc[-1,:] >= 50] # 根据电影类型统计数据作图 fig, ax2 = plt.subplots(figsize=(12,6)) genre_cumsum.plot(ax=ax12, legend=False, linewidth=3) # 添加数据标签 for i in last_row.iteritems(): if i[0] == 'Adventure' or i[0] == 'Biography' or i[0] == 'Horror': ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]-5), fontsize=12) else: ax2.annotate('{} {}'.format(int(i[1]), i[0]), xy=(2018.5, i[1]+5), fontsize=12) # 美化图表 ax2.set_title('The Aggregate Movies of Different Genres Over Years', fontsize=16) ax2.spines['top'].set_visible(False) ax2.spines['right'].set_visible(False) ax2.spines['left'].set_visible(False) ax2.tick_params(bottom=True, labelleft=False) ax2.set_xlabel('') plt.tight_layout() 电影时长的分布及时长是否和评分有相关性： fig, ax4 = plt.subplots() df['runtime_min'].hist(range=(70,210), bins=14, color=(114/255,158/255,206/255)) ax4.set_title('The Runtime Distribution of US Top Box Office Movies') ax4.spines['top'].set_visible(False) ax4.spines['left'].set_visible(False) ax4.spines['right'].set_visible(False) ax4.set_xticklabels(np.arange(70,220,10)) ax4.set_xticks(np.arange(70,220,10)) ax4.grid() 绘制时长和IMDB评分相关性： fig = plt.figure(figsize=(14,7)) sns.lmplot(data=df, x='runtime_min', y='imdb_rate') sns.despine() 三、数据分析结果评估 1、评分分布主要在5.0~8.0之间，3.0以下和9.0以上分布很少。如果8.0算为优秀，则优秀电影占比较少。 2、电影数量在1990~2000年间快速增长，2009年达到较高值。而电影的平均分整体上呈下降趋势。 3、评论家评论数与评分整体呈正相关关系，500以上评论家评论数对应的评分都高于6.0。 4、评分与票房整体呈正相关关系，但关系不强。 IMDB评分人数和电影票房的相关性很弱，高票房不代表评分人数多，低票房电影也能有大量的IMDB评分人数。 5、电影数量大于5平均分前十的导演：Christopher Nolan、Quentin Tarantino 、 Stanley Kubrick、 James Cameron 、Peter Jackson 、Alejandro G. Iñárritu 、David Fincher 、Martin Scorsese 、 Wes Anderson 、Paul Greengrass。 6. 前五大电影类型分别是动作片Action，喜剧片Comedy，动画片Animation，剧情片Drama，冒险片Adventure。1995年之前，动作片和喜剧片都是影院观众最喜爱的电影类型，对应的高票房数量不分伯仲，剧情片是另一相对流行的电影类型。1995年后，高票房的动作片快速增长，甩开了喜剧片。喜剧片随仍是高票房数量第二多的电影类型，但近几年增速明显放缓。高票房动画片进入榜单的时间最晚，但在1998年前后迎来明显增长，此后的十年里完成了对剧情片和冒险片的超越。如果动画片保持目前的增速，有望在之后的十几二十年里超越喜剧片，成为高票房数量第二的电影类型。 7. 时长和IMDB评分呈一定的相关性，时长短的电影既有高分也有低分，但时长超过160分钟的电影基本都能获得6分以上的分数，时长最长的两部电影甚至得到了接近9分的超高得分，IMDB评分接近或低于4分的电影时长均小于130分钟。丰富的剧情和长长的故事也许也是一种容易感染观众的方式，这也和之前提到的好的故事打动观众相呼应。四、总结数据分析的过程往往是一个从宏观到微观的过程。先从宏观上把握数据大体的情况，大胆地提出假设，然后再将数据进行细分，小心地求证。通过数据的对比，就很容易看出调整的效果。有关活动效果的数据分析往往也会涉及数据的对比。具体的思路是从要分析的目的入手，首先思考造成这种情况的可能原因有什么，再从每个可能的原因中找到相应的数据，与要分析的目的的数据进行比较，看哪一个是造成该情况发生的主要原因。这里要用到的是excel的图表工具，把每一种可能的数据都作出一个图表，与要分析的目的的数据图表进行比较，如果有某一个数据的变化曲线与之相差不多，则可以说这个所对应的原因是造成该情况发生的主要原因。以上是分析活动的一些核心数据，核心数据的分析是最主要的，因为这直接反应了该活动最本质的效果。

matlab导入excel代码DataCamp项目我的笔记本到Datacamp项目。 Python 项目描述 A Visual History of Nobel Prize Winners 探索来自Kaggle的数据集，其中包含一个世纪以来的诺贝尔奖获得者。谁赢了？谁被冷落了？ Classify Song Genres from Audio Data 摇滚还是说唱？在Python中应用机器学习方法将歌曲分类为流派。 Exploring 67 years of LEGO 在这个项目中，我们将探索建立的每个乐高玩具的数据库。 Find Movie Similarity from Plot Summaries 使用NLP并对IMDb和Wikipedia的电影情节摘要进行聚类，以量化电影的相似性。 Predicting Credit Card Approvals 建立机器学习模型，以预测信用卡申请是否会获得批准。 The Android App Market on Google Play 加载，清理和可视化抓取的Google Play商店数据，以了解Android应用市场。 The

电影数据库需要安装了 MySQL 的 Windows 机器。该程序将 Movies 目录或电影文件作为输入。它在 MySQL 数据库中为输入目录中的电影文件或电影文件创建条目。如果整个源作为输入目录传递，程序将刷新整个表，即删除并再次插入。这个程序内部调用windows批处理文件来导入MySQL DB中的数据。该程序还将调用 IMDB API 来获取电影的评分并插入到数据库中。 PS：这个程序是为学习目的而制作的，所以可以有更好的方法来做到这一点。

20,359

社区成员

19,658

社区内容

发帖

与我相关

我的任务

phpphpstorm 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章