Description
USC探究项目
电影评论中的情感和舆情分析
课题简介
自然语言处理(Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要研究方向。以实现人与计算机之间通过自然语言进行有效通信为研究目的,通过统计学的方法,利用计算机处理大规模自然语言数据。自然语言处理是一门融合计算语言学、计算机科学、数学于一体的科学,其研究有广泛的应用,包括语音识别、自然语言理解、自然语言生成、机器翻译、对话系统等。
情感分析通常使用自然语言处理技术,识别客户评论的语义情感,语句表达的情绪正负面,或者通过分析语音及文字判断其表达的情感等来完成广义上的主观分析。经过初步的学习了解机器学习之后,学生可以独立利用开源数据库对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从电影评论中分析用户对电影的评价。
本次课题结合机器学习和自然语言处理两门学科,在帮助学生加深对数学线性代数和机器学习重要算法应用了解的同时,还可以让学生利用所学知识对机器学习中向量机算法构建数学模型对词语情感进行分析探究。最后对比其他主流算法,帮助学生进行结果预测和对结果预测的原因分析。
科研方法
AI+X数据驱动型科研
使用人工智能(AI)算法,收集、处理、分析具体学科(X)的海量数据,并基于此进行预测,从而获得科学发现的研究方法。与传统的、基于实验或逻辑推理的研究方式相比,AI+X数据驱动型科研可以借助AI算法强大的运算能力,高效地进行大数据分析,具有投入产出比高、适用范围广的优点。
AI+X数据驱动型科研已被广泛地应用于各个领域,利用AI算法研究基因数据,从而进行早期的癌症筛查便是其中一例。基因组与癌症病患的数据千千万万,使用传统的科研方式对其进行分析,工程量大、过程繁琐,在客观上难以实现。
但借助AI算法这一便捷的工具,生命科学家便能够以海量的患者的遗传信息为基础,建立数据库,与过往的研究成果进行对照,快速、准确地在两者中发现规律、建立联系,从而使癌症诊断的“标准化”成为可能。
授课导师
南加州大学 计算机专业硕士
1、南加大计算机专业硕士在读;
2、本科计算机与应用数学双专业毕业于伦斯勒理工学院;
3、曾研究韩语识别算法研究,英语字词变换研究;
4、本科期间获得院长优秀学生嘉许名单
课题要求
本课题适合: 9-12 年级学生,有较强的逻辑思维和抽象思维能力:
英文:
1、具备基本的学术英语阅读能力;
2、接触过英文写作,能初步撰写英文文章;
数学:
1、概率统计基础知识;
2、线性回归;
3、微积分基础;
4、线性代数;
计算机:
1、Python NLTK;
2、Python编程基础;
3、Numpy库基础;
4、Scikit-learn;