Description
加州伯克利探究项目
网络浏览量的时间序列预测
课题简介
从生物、金融市场、天气预测,到视频处理、体育赛事,时间序列分析 (Time-series analysis) 出现在众多生活场景中。时间序列分析包含了多种不同的研究方向, 从分析演化到结果预测,。它既需要运用统计学知识分析需要用到的方法, 又需要利用计算机软件去处理大规模数据,还需要用数学模型去佐证得到的结果,因此时间序列分析是一门集计算机、 统计、数学为一体的交叉学科。
维基百科是一个网络百科全书项目, 是全球网络最大且最受欢迎的参考工具。 维基百科已经收录3000万篇条目,其中英语维基百科以超过450万篇条目在数量上位居首位。由于维基百科能够迅速地整理出与最近发生的事件相关的信息,并且任何人都能整理相应的数据信息,所以维基百科相应词条的浏览量往往能够反映相关词条热度。最近由Google赞助的kaggle学术活动发布一个维基百科的数据集,其包含了近145000条维基百科点击量的时间数据。
本课题旨在运用时间序列分析对部分词条的网络点击率进行分析,运用线性模型、时间序列分析和机器学习的方法去探究相应词条的网络点击量的走势。同时,本课题还可以预测高相关性的词条, 并视觉化分析结果, 力求帮助学生熟悉时间序列分析手段, 使得学生具备运用统计学模型分析,处理并且视觉化时间序列数据的能力。
本课题是跨统计和计算机的综合研究,也是时间序列相关技术的实际应用。研究者将获得使用R进行数据分析的技能和时间序列方法的深入了解。
科研方法
AI+X数据驱动型科研
AI+X数据驱动型科研是指使用人工智能(AI)算法,收集、处理、分析具体学科(X)的海量数据,并基于此进行预测,从而获得科学发现的研究方法。与传统的、基于实验或逻辑推理的研究方式相比,AI+X数据驱动型科研可以借助AI算法强大的运算能力,高效地进行大数据分析,具有投入产出比高、适用范围广的优点。
AI+X数据驱动型科研已被广泛地应用于各个领域,利用AI算法研究基因数据,从而进行早期的癌症筛查便是其中一例。基因组与癌症病患的数据千千万万,使用传统的科研方式对其进行分析,工程量大、过程繁琐,在客观上难以实现。但借助AI算法这一便捷的工具,生命科学家便能够以海量的患者的遗传信息为基础,建立数据库,与过往的研究成果进行对照,快速、准确地在两者中发现规律、建立联系,从而使癌症诊断的“标准化”成为可能。
整个科研教学流程中,每一位学员都将有学术督导协助保障研究阶段性作业和论文的进度,确保取得研究成果。
授课导师
1. 加州大学伯克利分校统计学 硕士
2. 多伦多大学双学位学士
3. 参与编写R语言中的基因算法包
4. 加州大学贸易策略中的统计学项目主要负责人
课题要求
本课题适合: 9-12 年级学生,有较强的逻辑思维和抽象思维能力
1. 英文:
(1)具备基本的学术英语阅读能力;
(2)接触过英文写作,有论文写作经验者更佳;
2. 数学:
(1)统计基础知识(置信区间)
(2)微积分(偏微分)
(3)线性代数
(4)基础概率论(期望 标准差 )
3. 计算机:
(1)R语言基础