Home » 国际课程 » AP课程 » Details

大数据时代，应该学点统计学

Category: AP课程, 国际课程 Date: 2018年1月24日下午6:59

都说大数据时代已经来了，云计算和大数据将会是未来三十年科技革命的驱动力。而统计对大数据的生命力和应用价值都有着至关重要的作用。统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域。

哥伦比亚大学教授Chris Blattman在给学生的建议中多次强调统计学的重要性，统计是要学会和理解的语言，不论未来的专业是什么，统计学都会极为有用。（哥大教授告诉你上大学前要知道的10件事，适用于每个孩子）根据College Board官方说明，AP统计学涉及106个职业领域和32个大学专业，包括市场营销、广告、工程、计算机与信息技术、经济金融、天文、教学、心理、物理等等。AP统计学相当于大学入门级统计学课程水平，随着大数据在各行各业的应用，在美国的选修人数越来越多。

AP统计学考试分为选择题和简答题，包括数据分析（20-30%）、实验设计（10-15%）、概率及分布（20-30%）、基于点估算的推论、置信区间、显著性水平等（30-40%）四大部分内容。（联系格为君索取AP统计学手册）

AP统计学的题目一般比较长，解释分析题目也需要一定的语言表达技巧。所以，AP统计学考试对题目的理解和解答方法的掌握至关重要，常用公式也要求烂熟于心第一个故事
假设所有20岁的中国人中，男女比例是1：1。现在要挑100个人出来，然后让你来猜猜100人中的男女比例可能是多少。

那么我们就要考虑了，这100个人来自何方？

从解放军中挑吗？解放军中女兵远远少于男兵，如果100人都来自解放军，很可能挑到的全都是男生，一个女生也没有。

那从护士中挑呢？恐怕情况就要反过来了，因为女护士远远多于男护士。所以，要使得一开始的假设“男女比例是1：1”不是一句废话，这一百个人只能“随机地”从所有20岁的中国人中去挑。

这个问题中“所有20岁的中国人的性别”叫做总体(population)，被挑到的100个人的性别叫做样本(sample)。

有同学可能会疑惑，为什么总体是“所有20岁中国人的性别”，只写”所有20岁中国人“做总体不行吗？答案是：不行。因为20岁的中国人身上有很多特征，比如身高、体重、IQ等等，我们现在只关注性别，所以总体必须具体到个体的特征。

在这个问题中，我们要做的是根据总体的性质来对样本的性质进行估计(inference)。

但是要想通过总体的性质来估计样本的性质，你所选取到的样本必须有“有代表性”(representative)，即样本和总体之间是一一对应的关系。

就像现在这个问题，如果我们的分析目标是解放军中的男女比例问题，那么总体就是20岁的解放军中的男女比例，假设是 9：1吧。此时样本就只能从20岁解放军中随机挑100个人，而不是从20岁的所有中国人中挑。

好了，接下来猜猜100人中，会全是男的吗？会全是女的吗？或者90%是男的，10%是女的吗？当然我们不能完全排除这种可能，但这仅仅是一种可能。如果总体中的男女比例真是1：1，这三种情况都是不太可能发生的。那比较可能的是什么情况呢？

男生50%，女生50%，当然可能，但也不一定。完全有可能男生53%，女生47%. 你从总体中抽取不同的样本，当然就会得到不同的结果。不同样本之间的差异，叫做statistical error，注意error是误差，不是错误。

在故事一中，我们是根据总体的情况，来分析样本的情况，也就是说已知总体，分析样本。第二个故事
仍然是考虑所有20岁的中国人中的男女比例问题。但出发点变了。现在我们不知道所有20岁中国人中的男女比例究竟是多少。我们要通过做试验来对这个客观存在，但我们不知道的比值进行估计。

那么这个试验怎么做呢？
第一步挑样本。
第二步做估计（estimation）。

有了第一个故事的基础，这里就不赘述，这个样本自然应该是从所有的20岁中国人中随机抽取的。

假设现在你已经挑好了一个100人的样本，样本中男女比例是51：49。这种情况下，你会做出怎样的估计呢？

如果是没学过统计的同学，可能就会直接说，根据调查结果，所有20岁中国人中的男女比例就是51：49。但我们现在多思考一步，这个总体中的男女比例，就必然恰好是51：49吗？就不会是51.1：48.9或者 50.9:49.1吗? 毕竟，我们的调查仅仅分析了一个100人的样本，并不是总体的全部。

当然，反过来考虑，总体中的男女比例，应该也不太可能是99：1的极端情况。因为如果总体中的男女比例真得是99:1的极端情况，我们挑选的100人的样本中就不太可能能挑到女生了。

从这个角度我们就会发现：如果样本比例是51：49，那么总体比例虽然不一定是51：49，但应该离着51：49不会太远，而且是离着越近，可能越大。

我们以这个男性样本比例( 51%)为中心，做一个区间(interval)出来，比如(46%, 56%)，这个区间就叫做置信区间(confidence interval)，我们刚刚完成的操作叫做区间估计(interval estimation)。总体中的男生比例以一定的概率（这个概率叫做置信水平confidence level）会处于这个置信区间内。

在这个故事中，我们是已知样本，来估计总体。第三个故事
这个故事是由两个人的争论引起的。张三说：所有20岁的中国人中，男女比例是9：1。李四表示不相信，并决定用试验推翻张三的结论。

于是李四去挑了一组样本。结果发现李四挑的这组样本中男女比例是50：50，和张三的假设相去甚远。这说明什么问题呢？

1、如果张三关于总体的假设是成立的，即：20岁中国人中确实是男生比女生要多得多，这种情况下，李四挑到的就是一个一般不可能被挑到的样本（因总体中男生比例远远高于女生，一般的样本中男生比例也应该远远高于女生），即：李四中奖了。

2、一般情况下，我们认为随机抽取的样本不太可能“中奖”，即：李四的结论没有问题。那么反过来，这就表示张三的假设有问题。

我们管这个操作叫做假设检验(hypothesis test)。

第三个故事仍然是从样本出发，来分析总体，只不过是要对于总体的假设进行检验。

现在你是否对统计学有了一个大致的印象？

（以上三个统计学故事来自z____w的博客）