Description
南加大探究项目
基于机器学习的信用卡欺诈检测
课题简介
机器学习(Machine Learning, ML)
是人工智能的一个分支。它也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
盗刷信用卡风险已经成为困扰全球银行信用卡部门的难题之一。仅以美国为例,美联储的支付调查报道显示,2012年全美信用卡支付总金额达到260亿美元,这其中未经授权的信用卡支付,也就是盗刷信用卡的金额高达61亿美元。衡量信用卡交易的风险涉及一系列复杂的技术,从金融到经济到法律再到信息科学。传统的信用卡盗刷检测需要大量人力参与到分析判断上,人类审核员会打电话确认这笔交易是否涉嫌信用卡盗刷。现在,由于交易量激增,各大银行的信用卡部门开始依靠大数据,并通过机器学习和云计算的方法快速甄别涉嫌盗刷的信用卡交易。
本课题旨在探索机器学习在信用卡欺诈检测中的基本应用。运用计算机编程和数学模型构建信用卡欺诈的主要特征,并应用机器学习方法自动鉴别涉嫌盗刷的信用卡交易,最终生成实时监测信用卡欺诈的智能程序,力求获得对实践有指导意义的结论。
科研方法
AI+X数据驱动型科研
AI+X数据驱动型科研是指使用人工智能(AI)算法,收集、处理、分析具体学科(X)的海量数据,并基于此进行预测,从而获得科学发现的研究方法。与传统的、基于实验或逻辑推理的研究方式相比,AI+X数据驱动型科研可以借助AI算法强大的运算能力,高效地进行大数据分析,具有投入产出比高、适用范围广的优点。
AI+X数据驱动型科研已被广泛地应用于各个领域,利用AI算法研究基因数据,从而进行早期的癌症筛查便是其中一例。基因组与癌症病患的数据千千万万,使用传统的科研方式对其进行分析,工程量大、过程繁琐,在客观上难以实现。但借助AI算法这一便捷的工具,生命科学家便能够以海量的患者的遗传信息为基础,建立数据库,与过往的研究成果进行对照,快速、准确地在两者中发现规律、建立联系,从而使癌症诊断的“标准化”成为可能。
整个科研教学流程中,每一位学员都将有学术督导协助保障研究阶段性作业和论文的进度,确保取得研究成果。
授课导师
1. 南加州大学硕士;
2. 斯坦福大学、北京大学访问学者;
3. 研究方法:商业分析。
课题要求
本课题适合: 9-12 年级学生,有较强的逻辑思维和抽象思维能力
1. 英文:
(1)具备基本的学术英语阅读能力;
(2)接触过英文写作,有论文写作经验者更佳;
2. 数学:
(1)概率统计基础知识
(2)线性回归
(3)线性代数基础(行列式、矩阵运算等)
3. 计算机:
(1)Python