转发了100次锦鲤,也没有一次成为幸运男孩/女孩。
好气,想做个数据模型给自己预测下一次转发中奖。
你的数据集应该有至少这样几个要求:
数据集不混乱,没有过分多的维度和行列
数据相对干净,没有太多干扰因素
数据可以解答一些有趣的问题
……OS:这可能比我中奖还难,还没人教
喜欢数据科学和商业分析的你,一定不要错过这个流行权威,真实有效的数据科学学术活动平台,当今最大的数据科学家、机器学习开发者社区——Kaggle。
这个学术活动社区,在全球拥有超过80万数据科学家的关注,有众多知名公司or研究机构,发布自己接近真实的业务/研究数据和高额奖金,悬赏寻求最好最新的解决办法,甚至给出顶尖的工作机会。
而就在17年,以AI为核心业务的Google宣布收购了Kaggle。再一次证明,这个积攒起庞大行业资源和智慧的开发者社区的被认可度和业内实力。
这是一个数据科学爱好者可以展示功力,扬名立万的江湖。
选择一场合适的 Kaggle 比赛 or playground 数据集作为自己的出道项目,能够——
给转专业小白带来真实的背景提升
得到一个被学界业界广泛认可的证明
参与到社区讨论,学到更优秀的思考路径
说不定的高额奖金 or 工作机会
官网学术活动主题页展示,可按类别选择
公司招募
研究主题
初学者练习场
Hi你期待的Kaggle学术活动项目制课程
如果你是一个打算转行商业分析 or 数据科学的初学者,或者一个想要从事类似职业但苦于没有背景证明的同学,你应该为 Kaggle 心动了。
你会犹豫——
我该如何开始?
我要和经验丰富的数据科学家比赛?
没有获胜机会的话,还值得参与吗?
这就是要为你提供的贴心解决方案了!
Kaggle为喜欢商业分析和数据科学的同学提供了非常好的入门工具和平台,每个学术活动和数据都是独立的,你无需考虑项目范围,而是专注于技能和解决问题。而这套技能和解决问题的思路,请到了老师带你——
商业分析&数据科学 专项辅导1V1
■ 划重点 ■
本次计划针对初学者,尤其适合各类转专业小白,想要做更专业比赛or更深入研究的可以期待我们以后的辅导计划~~
亮点引路人+全方位指导
即使是新手小白,也无须畏惧。邀请到商业分析&数据科学领域,教育背景优秀,实战经验扎实的老师,手把手,一步步,全程指导,带你了解 Kaggle , 选取合适又喜欢的数据集(拉面的评分?西雅图的宠物牌?沃尔玛的第三季度销售?),处理数据,分析数据,产出属于你自己的项目报告。
最终,你的project成果可以直接用于展示,成为你留学申请路上专业水平和背景实力的证明,也可以成为你求职场上的重要升职加薪砝码~来这里,你会收获——
一份属于你的机器学习报告
从数据集的清洗和处理,到特征工程,建立模型,调整参数等等,这是一个仅属于你的机器学习全过程,最终这份报告是你技术实力和思考写作能力的双重体现。
掌握数据科学界的核心理论与方法
实打实的数据科学界的硬技能,既锻炼你的实际操作能力,更磨砺你的数据分析思维,掌握开启未来大门的金钥匙。
升学/求职申请利器
货真价实的过程复现作品和能力证明材料,无论递交给学校还是企业方,都能妥妥显示你就是有两把刷子的天选之人!
面试官、招生官不仅能「读到你的经历」,更能实际地「看到你的过程」。
以下是本次专项辅导计划的详细内容介绍——
专项辅导内容
本次专项辅导计划,你将有20个课时(1hour/课时)的时间,与你的专属导师全程1V1交流沟通,挑选 Kaggle 合适的数据集和比赛内容,最终完成一份机器学习报告。
01 对数据进行探索性分析
学生根据自己的兴趣方向和实际情况,与导师商议,在 Kaggle 上挑选出合适的且令你愉快舒心的数据集,了解比赛的内容和意义。
不同的数据集意味着不同的模型方向,例如分类 or 回归,包含的各类数据 feature 也多种多样。描述和探索数据,确定合适的模型,这是你的第一步。
02 数据处理
根据你的使用习惯,R或者 Python 都可以。对数据进行预先处理,包括清洗数据,排除noise, 处理缺失值~
03 特征工程
挑选出你想要重点使用的,最理想的 feature 做加工,比如对数值型数据做简单的加减乘除,特征的选择和联合非常关键,要把你的数据安排得明明白白的。
04 选择和建立模型
分出你的训练集和测试集,选择和建立起适合你的数据的模型。
05 调参和优化
试着跑一跑你的模型,为了提高精准度,可以在这一步对你的模型参数做调整和优化。尝试不同的组合,选取最优值。还可以将多个模型融合在一起,提高效率。
06 复现过程和结果,产出报告
最终,你将对自己的整个过程做一遍梳理,复现过程和结果,阐释每一部分的意义,产出属于你的机器学习报告。
我不是你的报告,我只是个单纯的插图
经典案例举例
来,我们以一个 Kaggle 上的具体比赛案例,带你看看你会得到怎样的辅导吧。
▌比赛地址链接:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
▌比赛项目描述:
这是一个房价预测项目,数据集里的变量描述了爱荷华州埃姆斯的住宅各方面情况,要求你预测房子未来的价格。
▌比赛项目核心知识点:
极具创意的特征工程
高级回归模型:随机森林和梯度提升
▌实践辅导流程:
小白别方,搓搓手,我们准备搞事情了~
Step 1 指导你进行数据集的探索性分析
Step 2 学习 Python 或者 R 核心可视化包的应用
Step 3 学会从现有众多变量中取其精华,重新安排核心变量
Step 4 划分训练集和测试集做交叉验证
Step 5 学会应用模型并对其优化
Step 6 用 Markdown 的形式来展现和包装你的项目
彩蛋环节:创立自己的 github 页面,把你的项目 show 出去!
(github: 数据科学家和程序猿超喜欢超热爱的代码托管网站,宛如一个公众号,写进自己的简历里十分加分!面试官/招生官可以直接点击进去,感受你的project,原滋原味~)
经过这波淬炼,你一定会成为被面试官/招生官喜爱的杰出青年~
适合人群
对商业分析、数据科学专业感兴趣的同学们
计算机、经济、金融、数学、物理等各种各样专业,想要转专业到商业分析or数据科学领域,苦于没有起步腾飞的学习资源的同学。
求职/求学已经迫在眉睫,急需提升背景的你
对数据科学、商业分析、机器学习有非常浓厚的兴趣,求职就业or硕士申请想要跨入这个领域,却苦于没有相应背景,申请异常困难的同学们。
在数据处理和分析工作中沉沦,寻求刺激和提升的职场人士
喜欢数据处理和分析工作,想要有更加清晰的成果展现,想要老板升职加薪,寻求刺激和个人提升的职场人士们。
翰林课程体验,退费流程快速投诉邮箱: yuxi@linstitute.net 沪ICP备2023009024号-1