Kaggle是当下最真实有效的数据科学学术活动平台,也是目前最大的数据科学家、机器学习开发者社区。Kaggle适用于以下人群:
我是小白,但是对数据科学充满求知欲。
我想要历练自己的数据挖掘和机器学习技能,成为一名真正的数据科(lao)学(si)家。
我想赢取奖金,成为人生赢家。
Kaggle创办于2010年,目前已经被Google收购,是全球顶级的权威性数据科学学术活动平台,在数据科学领域中享有盛名,为全世界的数据科学和机器学习的爱好者、研究者和创业者提供了公平、公正的学术活动平台。
在平台上,企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以学术活动的形式向广大的数据科学家征集解决方案。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求并且在参赛者中排名第一,将获得比赛丰厚的奖金。
适合对date science、date mining、machine learning感兴趣的高中生;以及有一定计算机背景的人群。是绝佳提升申请背景的赛事。
Kaggle上的学术活动有各种分类,例如奖金极高竞争激烈的“Featured”,相对平民化的 “Research”等等。但他们整体的项目模式是一样的,就是通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。同时,每个进行中的学术活动项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且还会实时更新选手排位。
Featured:是Kaggle最著名的比赛类型,适合数据科学高手参与。题目都是全面的机器学习问题,所以有一定难度,通常是商业目的的预测问题,奖金池最大。
Research:同样适合数据科学高手参与,以实验研究为主要方向的学术活动,奖金相比Featured较少。Recruitment:适合想要去发布公司求职的人,以各大公司需要招募相关职业为主Getting 。
Started:适合基础入门选手,与Featured学术活动结构类似,但并没有奖金,以初学者项目学习积攒经验为主。
Masters:大师级别比赛的,难度最高,项目也最少。
Annual:有两种类型的年度比赛。
第一个是March Machine Learning Competition,自2014年以来,该比赛每年都在美国大学篮球锦标赛期间举行。
第二个是Santa-themed optimization competition,每年在圣诞节前后举行一次。
在截止日期之前,所有队伍都可以自由加入学术活动,或者对已经提交的方案进行完善,因此排名也会不断变动,不到最后一刻谁都不知道花落谁家。
由于这类问题并没有标准答案,只有无限逼近最优解,所以这样的模式可以激励参与者提出更好的方案,甚至推动整个行业的发展。
Kaggle学术活动另一个有趣的地方在于,每个人都有自己的Profile,上面会显示所有自己参与过的项目、活跃度、实时排位、历史最佳排位等,不仅看上去非常有成就感,更能在求职和申请的时候起Certificate的作用。
编程语言:最基础的入门学者也得先学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可以迅速入门。探索数据:光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。模型训练:熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战,从初级可以逐渐增加。
注册Kaggle账号;
选择感兴趣的学术活动项目,下载数据集(csv格式),数据集中一般包括训练数据集和测试数据集,查看数据描述和任务描述,明确需求;
用你擅长的任何语言或算法来构建模型,用训练集来训练,然后用训练好的模型推测测试集的labels,生成一个测试集labels作为最终的提交文件;
系统会从所提交文件中选取25%的数据进行初评,根据评测结果得到准确率和排名。在比赛结束时,采用剩下的75%的数据进行终评,作为最后的准确率。
Kaggle在全球拥有超过80万数据科学家的关注,有众多知名公司or研究机构,发布自己接近真实的业务/研究数据和高额奖金,悬赏寻求最好最新的解决办法,甚至给出顶尖的工作机会。
Kaggle提供了一个介于“完美”与真实之间的过渡,问题的定义基本良好,却夹着或多或少的难点,一般没有完全成熟的解决方案。
在参赛过程中与论坛上的其他参赛者互动,能不断地获得启发,受益良多。即使对于一些学有所成的高手乃至大牛,参加Kaggle也常常会获得很多启发,与来着世界各地的队伍进行厮杀的刺激更让人欲罢不能。
更重要的是,Kaggle是业界普遍承认的学术活动平台,能从Kaggle上的一些高质量学术活动获取好名次,是对自己实力极好的证明,还能给自己的履历添上光辉的一笔。
利用新闻报道预测股价走势:https://www.kaggle.com/c/two-sigma-financial-news/overview/description下面这位17岁的英国高中生Mikel Bober-Irizar,他是Kaggle史上最年轻的Grandmaster。Kaggle competition总共有122位Grandmaster,这代表了Kaggle学术活动选手中的最高级别。Mikel在14岁加入Kaggle,三年时间便达到了Kaggle顶峰。谈到数学,Mikel说,“我不知道算法背后的所有数学原理,但就实际使用而言,我认为对算法的工作方式有一个合理的理解更为重要。即使我不能从头开始写算法,我仍然知道它具体做了什么,这有助于我理解算法可能有用的地方。”
© 2024. All Rights Reserved. 沪ICP备2023009024号-1