参赛时间
全年滚动,随时可以报名
Kaggle是一个全球知名的数据科学学术活动在线平台。由Anthony Goldbloom和Ben Hamner创立于2010年,是一个进行数据发掘和预测学术活动的在线平台,也是全球最大的数据科学社区和数据科学学术活动平台,2017年被Google收购。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。
Kaggle以数据挖掘起家,为了快速高效的解决最棘手的问题,该平台发布了众多数据科学、机器学习相关的学术活动。Kaggle的多数学术活动由企业或者研究机构发布,以学术活动奖励的方式向全球征集解决方案,通过众包的方式解决建模问题,诸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上举办过数据挖掘比赛。除此之外,Kaggle官方每年还会举办一次大规模的学术活动,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。
全年滚动,随时可以报名
高中生/计算机背景的大学生
比赛全英文,可以练习英语
其难度从初学到高阶以及求职均有涉及,最常见的竞赛可以划分为以下类型
特色
研究
入门比赛
游乐场比赛
类别/职业
分析
可以以个人或组队的形式参加比赛,在参赛时可以相互分享经验
01注册账号(一人只能有一个账号)
02选择想要参赛的项目
03下载题目的数据
04时间截止,评出最优者
05获奖的队伍必须提交源代码
一段带奖金高难度的Kaggle比赛的 Prize Winner经历并不会比一段互联网大厂数据分析实习经历逊色,大大提高你的录取概率。
最基础的入门学者也需要学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可迅速入门。
光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。
熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战,从初级可以逐渐增加难度。
Simple Competitions:
遵循标准 Kaggle 格式的比赛。在简单的比赛中,用户在接受比赛规则后,可以在比赛开始时访问完整的数据集。作为竞争对手,您将下载数据,在本地或笔记本中构建模型,生成预测文件,然后将您的预测作为提交上传到 Kaggle。到目前为止,Kaggle 上的大多数比赛都遵循这种格式。
Two-stage:
分为第一阶段和第二阶段,第二阶段建立在团队在第 1 阶段取得的成绩的基础上。第 2 阶段涉及在阶段开始时发布的新测试数据集。第 2 阶段的资格通常需要在第 1 阶段提交。在两个阶段的比赛中,阅读和理解比赛的具体规则和时间表尤为重要。
Code Competitions:
在这些比赛中,所有提交都是在 Kaggle 笔记本内部提交的,并且无法直接将提交上传到比赛。
这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件限额。获胜模型往往比其他比赛中的获胜模型简单得多,因为它们必须在平台施加的计算限制内运行。对您可以提交的笔记本配置了自己独特的约束。这些可能受到以下特征的限制:CPU 或 GPU 运行时、使用外部数据的能力以及对 Internet 的访问。要了解您必须遵守的限制,请查看该特定比赛的要求。
这是传奇的Titanic ML比赛——对你来说是深入ML比赛并熟悉Kaggle平台如何工作的最好的第一个挑战。
比赛很简单:使用机器学习来创建一个模型,预测哪些乘客在泰坦尼克号沉船中幸存下来。
在爱荷华州艾姆斯市,有79个解释变量(几乎)描述了住宅住宅的每个方面,这项竞赛要求你预测每个住宅的最终价格。
你的工作是预测每栋房子的销售价格。对于测试集中的每个 ID,必须预测 SalePrice 变量的值。
欢迎来到2912年,这里需要你的数据科学技能来解决一个宇宙之谜。我们收到了来自四光年外的信号情况不妙。
为了帮助救援人员并找回失踪的乘客,你面临的挑战是利用从飞船受损的计算机系统中恢复的记录来预测哪些乘客被异常运送。
Allstate索赔预测挑战 - 使用客户的购物历史记录来预测他们购买的保险单
有害评论分类挑战 - 预测维基百科上有害评论的存在和类型
Zillow奖 - 构建一个机器学习算法,可以挑战Zesow,Zillow房地产价格估算算法
谷歌地标检索挑战 - 如果有图像,您能在数据集中找到所有相同的地标吗?
右鲸识别 - 识别航空照片中濒临灭绝的露脊鲸
大规模分层文本分类 - 将维基百科文档分类为约300,000个类别之一
泰坦尼克号:从灾难中进行机器学习,预测泰坦尼克号的生存几率
房价预测:回归方法
猫与狗:创建一种算法去区分猫与狗
纽约出租车行程持续时间:通过数据改善乘车时间预测
kaggle的评价体系 kaggle的用户评价体系是基于三个维度的:学术活动、代码以及社区参与
Kaggle是计算机科学领域中最知名的学术活动之一,为学习计算机科学的人提供了一个绝佳的平台。如果你在计算机科学领域从未听说过Kaggle,就好比在学习数学专业的过程中从未听说过AMC,简直难以置信。 Kaggle学术...
在人工智能盛行的时代,STEM(科学、技术、工程和数学)已经成为最受瞩目的学科领域。作为人工智能的核心学科,计算机领域成为了众多留学生争相涌入的申请赛道。虽然STEM领域有很多学术活动活动,但专注于人工智...
在这个信息技术爆炸的时代,理工高中生需要掌握许多关键技能。其中一个非常重要的技能就是数据能力。随着人工智能和机器学习的不断发展,这些前沿科技离不开大数据的支持。无论是AI机器学习训练,还是生物、物理...
Kaggle是一个全球知名的数据科学学术活动平台,也是当今最大的数据科学家和机器学习开发者社区之一。成立于2010年,Kaggle致力于举办在线数据科学学术活动,为数据科学领域的专业人士提供了一个交流与学习的平台...
1、参赛者背景如何?
从比赛目标出发,参赛者主要分为2种:
① 一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler;
② 另外一种就是以提升相关skills和背景为目的业余爱好者甚至在校学生了。从背景来看,前者的来源主要有丰富data science、data mining、machine learning工作经验的业内人士,或者是实力强劲的民间“技术宅”;而后者则往往是一些有一定技术能力,但经验欠缺,从中进行学习和锻炼的“长江后浪”。
2、在比赛中获胜或者拿到好的排名难吗?
在Kaggle比赛中,赢得一个奖项甚至赢得一个好位置的难度非常高,通常有数千人参与一个项目,只有Top1才能获得奖金,可以说是高手中的高手。
一般来说,几个人在行业内有一定水平在临时组团的情况下最多能拿到20个左右的排名成绩,排名还想要往前走就需要有一定的默契和合作经验。
我在哪里可以获得我的比赛数据集?
我们建议您使用自己的数据,因为通常最好使用参与者无法访问的数据(以尽量减少作弊的诱惑)。
但是,如果你不介意参与者完全可以访问它(例如纯粹的教育竞赛),可以考虑浏览Kaggle的数据集平台。它拥有数千个公共数据集,并拥有丰富的搜索和过滤工具,可以帮助您找到适合您需求的内容。每个数据集都应该包含一个数据使用许可,这将表明您是否可以将其用于您的竞争。
我收到(一个错误),我该如何解决?
从阅读本安装指南开始。如果你仍然不能解决这个问题,试着在Kaggle论坛上询问其他社区竞赛的主持人。
我想再次参加同样的比赛。我需要从头开始吗?
现在,你还不能复制过去的比赛。您需要从头开始安装。
谁能看到我的比赛?
这取决于您选择的隐私设置。Kaggle有2个隐私设置-公共和有限。公开意味着你的竞争对手会在kaggle.com上被列出和发现。有限的意思是只有提供URL的人才可以观看和参加比赛。
我在哪里可以找到邀请链接?
如果你选择了“公开”,你可以在你的浏览器标签上分享你的比赛——任何人都可以看到比赛。如果您的比赛设置为有限隐私,请访问您的比赛>主机>隐私>共享URL(如果您选择了有限)。
Kaggle禁止作弊
在Kaggle上,作弊是不会被轻视的。我们会在比赛期间监控我们的合规账户(举报作弊者或因作弊行为提起移除请求的正式渠道)。我们还会在每场比赛结束时花大量时间审查可疑活动,并将违反规则的人从排行榜上删除。当我们认为我们有足够的证据时,我们会通过删除甚至可能封禁帐户来采取行动。
我们还会在一周内监控和调查审核报告(抄袭、投票圈等),并采取适当的行动,包括移除奖牌和完全屏蔽账户。
如果您认为您有证据表明某个队伍违反了竞赛规则,请将其报告给竞赛合规账户,以便进行彻底调查。