唐诗的大数据分析及自动创作
Analysis and Automatic Composition of Tang Poetry
自然语言是构建人类文明和智慧的基石,具有高度抽象和上下文丰富的特点。如何让计算机理解、加工乃至创作自然语言,是实现人机自然交互这一终极愿景的关键,也是人工智能领域的下一个增长点。过去,自然语言处理主要关注理解文本,例如辅助学者分析著作《红楼梦》的作者身份。如今,自然语言处理已经开始在文学创作中崭露头角,例如微软小冰聊天机器人通过快速学习近现代几百位中国现代诗人的作品,于今年5月份出版了原创现代诗集《阳光失了玻璃窗》,这是人类历史上第一部100%由人工智能创造的诗集。人工智能技术与人类文艺创作的关系将产生深刻变革。
本课题旨在探索自然语言处理技术在古典诗词创作中的潜力,通过对《全唐诗》中的海量诗篇内容进行大数据分析,运用计算机和数学模型探究唐诗和代表性诗人的创作风格和规律,并应用机器学习方法自动鉴别特定风格和流派的诗篇,最终构建生成唐诗风格和特定诗人风格的智能程序,甚至还可根据用户给定的开头续写诗句。
课程模块一:预备课程
在教学过程正式开始前,有方学者会根据学生的具体情况提供数学、统计、英语学术论文写作等预备课程。
课程模块二:科研辅导
来自美国顶尖人工智能的机器学习科研团队将在有方学者团队的配合下,进行8-12周的科研辅导:
微积分、线性代数和概率统计入门;
学习 Python编程语言和相关的库numpy, pandas, scikit-learn, matplotlib;
学习探索性数据分析(Explorative data analysis),并通过统计方法和可视化对金融数据进行分析
学习回归分析(regression),对金融数据进行社交媒体效应的评估
学习几种重要的自然语言处理和机器学习算法,提出初步的金融数据舆情情感分析;
课题验收需要学生完成英文学术论文的写作,并向科研团队进行答辩。
指导速度可能因实际教学情况而异
课程模块三:论文写作&发表
在科研辅导结束后
项目导师将辅导学生完成论文写作
协助学生完成论文在英文学术期刊上正式发表。
整个科研教学流程中,每一位学员都将有学术督导协助保障研究阶段性作业和论文的进度,确保取得研究成果。
本课题适合: 9-12 年级学生,有较强的逻辑思维和抽象思维能力
本项目适合适合申请STEM专业方向:计算机、数学等相关专业的学生。
专业领域的零基础学生,我们会提供相关的学术知识培训。
英文:
能够查找和阅读英文资料,如网上的编程教程、课件等
数学:
概率统计基础知识
线性回归、逻辑回归
线性代数基础(行列式、矩阵运算等)
多元函数、微分、函数极值
计算机:
最好有一定的计算机基础。如果没有,以下软件选择一种或多种,在课题开始后的1-2周进行强化学习并能进行初步的应用。
Python编程基础
Numpy库基础
scikit-learn库基础
写作:
熟悉ShareLaTeX在线论文排版工具
© 2024. All Rights Reserved. 沪ICP备2023009024号-1