Description
哈佛探究项目
电影评分与票房的大数据分析
课题简介
近年来中国电影行业发展迅速,不断有叫好又叫座的佳片出现,也存在很多极具争议性的影片。同时,豆瓣电影评分网和猫眼网等平台记录的有关电影的各项数据为深入研究提供机会。
本课题旨在通过数据抓取技术和数据分析方法探求电影评分及其票房之间的关系,并由此出发利用计量经济学中的时间序列、空间维度、统计回归等方法探究观众对于电影偏好的分歧程度、电影偏好的地域性特征等更具社会意义的问题,力求由此获得对文化经济发展更深入的理解。
本课题是跨经济学和数据抓取的综合研究,是网络爬虫相关技术的实际应用。研究者将获得使用R进行网络数据抓取的技能和对电影行业及社会文化经济发展的深入了解。
科研方法
AI+X数据驱动型科研
AI+X数据驱动型科研是指使用人工智能(AI)算法,收集、处理、分析具体学科(X)的海量数据,并基于此进行预测,从而获得科学发现的研究方法。与传统的、基于实验或逻辑推理的研究方式相比,AI+X数据驱动型科研可以借助AI算法强大的运算能力,高效地进行大数据分析,具有投入产出比高、适用范围广的优点。
AI+X数据驱动型科研已被广泛地应用于各个领域,利用AI算法研究基因数据,从而进行早期的癌症筛查便是其中一例。基因组与癌症病患的数据千千万万,使用传统的科研方式对其进行分析,工程量大、过程繁琐,在客观上难以实现。但借助AI算法这一便捷的工具,生命科学家便能够以海量的患者的遗传信息为基础,建立数据库,与过往的研究成果进行对照,快速、准确地在两者中发现规律、建立联系,从而使癌症诊断的“标准化”成为可能。
授课导师
1. 哈佛大学 博士
2. 本科毕业于复旦大学数理经济系;
3. 擅长STATA、R Program、Matlab、Latex、Python等多种数据处理软件;
4. 现于麻省理工担任助理研究员,研究印度贸易改革的影响。
课题要求
本课题适合: 9-12 年级学生,有较强的逻辑思维和抽象思维能力
1. 英文:
(1)具备基本的学术英语阅读能力;
(2)接触过英文写作,有论文写作经验者更佳;
2. 数学:
(1)概率统计基础知识;
(2)线性回归;
(3)线性代数基础(行列式、矩阵运算等)
3. 计算机:
(1)R编程基础(了解 https://www.r-project.org/about.html)
(2)最好项目开始前基本了解,开始后1-2周强化掌握