14岁斩获多个金银奖项,
从计算机“小白”到大数据神童,
从好奇到热爱,
是什么力量支持他走过四场比赛?
他的夺冠秘籍是什么呢?
大数据“天才”A同学的夺冠之旅
Win a Championship
A同学
美国华盛顿州华裔高一新生
曾在Kaggle大数据平台获得一金二银
01从单纯喜爱到系统学习
A同学很小的时候就对数学、人工智能和计算机科学有着浓厚的兴趣。几年前,他正式开始了对这些领域的深入探索。
起初,A同学自行学习了课程内容以外的数学和编程知识。由于从小对计算机科学着迷,他将学习重点逐步转向了编程。
在自学编程不久后,他可以独立制作出一些基于回溯算法的小项目,比如数独求解器。
数独生成器的代码
随着所学知识越来越多,疑问也随之而来——A同学开始疑惑编程学科的用途。这时,“Kaggle”和“数据科学领域”等词汇进入了A同学的视野。
02 夺金之旅路途坎坷
第一次下场参与,A同学参加了使用回归技术预测房价的初学者学术活动。这一阶段,A同学对自己的知识掌握程度有了更清楚的认识,并发现了自己最大的缺点:经验。
失败是成功之母。第一次失败并不能使A同学气馁,他回忆了自己初次参与时的诸多不足,并且开始在Kaggle官网论坛上浏览各种问题讨论和笔记。
很快,自认为准备充分的A同学朋友一起参加了第二次活动——Mechanisms of Action (MoA) 学术活动。果不其然,涉世未深的两个少年在活动时被论坛上那些看起来很专业的代码和技术讨论吓住了。
所有赛前准备付之一炬,A同学决定从头开始。在讨论帖的帮助下他和队友开始了紧张又忙碌的训练,直到他们能够在短时间内建立基线。最终,二人的解决方案进入了前 4%。
来之不易的胜利让A同学和他的队友看到了曙光。他们紧接着又趁热打铁参加了另外两个学术活动。功夫不负有心人,他们分别取得了银牌和首个金牌。
03A同学在Kaggle上所得经验分享
在获得了诸多奖项之外,A同学积累了很多编程经验,也总结了许多夺金技巧。他表示很愿意和大家分享。
数据科学VS机器学习
对于很多人来说,由于先前知识的积累,学习数据科学和机器学习方法有所不同,如何成功拿下?
以下是A同学的成功秘诀:
●数学是一切的基础,线性代数和微积分是使用的机器学习中最重要的概念。几乎所有的机器学习算法都与这两个领域相关。
●统计也非常重要,数据科学是关于数据的。数据的预处理和特征工程在很大程度上依赖于统计学。
●编写代码。与简单地遵循代码和复制粘贴不同,一定要确保自己理解了代码背后的数学原理。
A同学在Kaggle中遵循的pipeline
●仔细阅读数据描述和概述,稍微探索领域知识。
●在阅读任何论文、讨论或笔记之前,尝试自己创建一个基准。
●制定一个可行的交叉验证策略并提交至排行榜,这一点非常重要。
●在模型或特征层面对基准进行调整。每次只调整一个内容,以了解模型提升或表现更差的原因。
●尽可能多地探索新方法,不要将时间和精力浪费在无法发挥作用的内容上。
●如果所有方法都不起作用,可以试试集成或堆叠。
●提交结果时选择分数较好的,并确保自己能够清楚表述原因。
着重关注学术论文
在 MoA 学术活动中,初赛时大有用途的论坛和讨论帖对A同学和他的队友设计的模型没有任何帮助。在这种情况下,他们把参考目标锁定在了对于这个年龄段难度较高的学术论文。
“要敢于深入阅读和研究论文。在我当时正在参加的这个学术活动中,多标签分类并不常见,我也没有找到任何简单的教程。最后,我找到了一篇使用问题转换来比较多标签特征选择的论文。”在采访中,A同学如是说。
创造性建模
关于建模,A同学提供的关键词是:创造性。
“这种创造性不仅体现在模型结构上,在模型如何能够作用于不同类型的数据这一问题上也要有创造性思维。”
●稍微调整模型使其具有非线性拓扑结构或者为表格数据创建类 ResNet 结构的网络。
●探索去噪、变分和稀疏编码器等不同类型的自编码器,这些工具远远超出了简单特征工程所能实现的结果;
●集成(杀手锏)。总结不同模型的结果,增加解决方案的综合性,使其更加和稳定。
●实时关注新论文,并探索论坛中没有提到的内容。稍稍改进激活函数和优化器(以 AdaBelief 替代 Adam 等)或许可以从模型中「榨出」一些额外性能。
●不走寻常路。使用 1D CNN 在表格数据上执行特征提取,或者利用 CNN 的优势,使用 DeepInsight 将表格数据转换为图像。
RANZCR CLiP-Catheter and Line Position
挑战赛(医学影像插管分类)中的第一名解决方案。
*采访内容来源于网络
看过了A同学的经历才明白
“神童”其实并不神
能获得如此惊人的履历
皆因把握住了机遇和自己不懈的努力
计算机、大数据学子们
这些机遇不容再错过!!
高含金量计算机活动盘点
Let's go!
01Kaggle大数据学术活动平台
活动简介
kaggle是全球极具权威性数据科学学术活动平台,也是当今世界范围内广泛的数据科学家、机器学习开发者社区,其行业地位独一无二。
自2010创立至今,专注于举办数据科学周边的线上学术活动。2017年,kaggle被Google收购,不仅身价大涨,而且社区拥有Google提供的云技术支持。
活动时间
全年线上报名参赛,视想要参与的项目决定。
适合学生
对计算机、大数据等有浓厚的兴趣,有一定技术能力,但是欠缺经验,需要从中进行学习和锻炼的高中学生。
项目设置(水平由高到低)
●Featured:这些通常是由公司、组织甚至政府赞助的,该项目设置包含了巨大的奖金池。
●Research:这些是研究方向的学术活动,也含有少量可瓜分的奖金池。
●Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
●Getting Started(练习项目):这些学术活动的结构和 Featured 学术活动类似,但没有奖金。包含更简单的数据集、大量教程。
参与优势
Kaggle的比赛在Machine Learning领域中属于什么地位?
Walmart lab data scientist面试官:
写上参加过Kaggle比赛,我会看简历。
得过一次10%,我会给电话面试。
得过2次或者以上10%,我会给on site面试。
得过一次前10,我们会谈笑风生。
02USACO美国计算机奥赛
活动简介
USACO(UnitedStates of America Computing Olympiad,美国计算机奥林匹克学术活动) 是全美教育界认可度很高的计算机学术活动,面向全世界所有的高中信息学学术活动选手。
活动时间(参考2020-2021赛季)
第一场月赛:2020年12月18日-21日
第二场月赛:2021年1月22日-25日
第三场月赛:2021年2月26日-3月1日
公开赛:2021年4月2日-4月5日
(每场比赛时间为4h)
适合学生
全世界范围内有一定要有编程语言基础的高中生均可免费线上注册参与。
接受语言:C++、Java、Python、C、Pascal。
等级设置
USACO共设置青铜、白银、白金、黄金四个等级、参与者依次晋级。
参与优势
参与者有机会跻身IOI(国际信息学奥赛),USACO等级受美国TOP30大学认可,可在简历中平替以下成绩:
*该学术挑战活动主办方为海外机构,不与任何中国的大学、中学或小学升学加分活动挂钩,其成绩不会作为任何中国中小学升学或评优的依据,仅定位为针对中学计算机爱好者的课外兴趣活动和国际计算机教学交流活动。
© 2024. All Rights Reserved. 沪ICP备2023009024号-1