Home » 国际课程 » AP课程 » Details

AP统计置信区间要凉？假设检验要跪？

Category: AP课程, 国际课程 Date: 2018年5月15日下午6:57

快要考试了，脑子里对统计各种概念还是一团浆糊？问答题完全不知道在问什么，也不知道怎么回答？

废话不多说，潘老师给大家梳理AP考试常见题型和解题思路，干货直接奉上！大腿赶紧抱起来，拒当炮灰！

近年来统计的题目考察知识点越来越细，对学生统计概念的考察难度也越来越大。因此要想拿到5分，对统计知识的理解绝对是要透彻、深刻。下面我们就来盘点选择题题型与常见的坑：

回顾历年题目，选择题常见的题型主要分为：

1. 图表判断、描述题（对应考点是统计各类图表的理解与描述）
2. 数据收集，样本分析以及实验设计（对应考点为数据收集）
3. 数据分析（对应考点包括Z-score, regression analysis）
4. 概率计算以及分布概率计算（对应考点为概率计算）
5. 置信区间概念与计算（对应考点为置信区间理解与计算）
6. 假设检验（对应考点为统计推断与p-value）

我们每个题型都进行分析，总结这类特点以及对应的思路策略

图表判断题给出的图表多为histogram, boxplot,scatter plot。不少同学可能忽略了另外一个图，叫cumulative frequency plot（累计频率图）。这个可能出现的考点是通过图来判断数据是skewed to left or right。例如，

764799-1eb39a2a10594e97bbcc9202388147e0

764799-896f78c9052926dadf4710449dbe33b6

这类型的考点还会结合BOXPLOT，让你根据Q1,median以及Q3的位置判断数据的shape.

764799-ad97de2fb5650d1687027d2d62f58b60

我们看这里，当skewed to the left，Q1与median的距离比median到Q3的距离近，说明数据集中在前面。

764799-2ae94c828e4a4008df427a4a1d57b81c

另外，题目可能会给boxplot Q1到median与median到Q3之间距离相等，让我们判断数据的shape。这种情况极有可能是bell-shape，也有可能会是uniform，所以大家要小心。

总体来说，这类题型相对比较简单，只要平时做好积累，仔细判断问题就不会太大。

考到数据收集和实验的题目，无外乎两点：是不是足够random,是不是足够representative，可能存在的bias是什么。另外这类型题目考得最多的是区分observation study and experiment。大家只要注意出现assign,arrangement等干涉性的字眼，或者提到研究有人为分配东西给实验对象，这种就是experiment跑不了了。

数据分析部分的题目大部分会围绕regression进行考察。

这里，大家需要注意以下几个细节：

correlation coefficient的计算方式是x与y变量的z-score计算的，

764799-a5d7c37c4dfa5be2fdeffd24970a9db0

所以当x或y变量的单位改变时，他们的z-score不变，同时他们的r也是不会改变的。

我们看看这个例题：

Consider the following three scatterplots:

764799-f43edffa42eef10346c05327561f6da4

Which has the greatest correlation coefficient?

A. Ⅰ

B. Ⅱ

C. Ⅲ

D. They all have the same correlation coefficient

E. This question cannot be answered without additional information

例如这道题，大家注意看里面数据的点与scale的变化关系。这里相当于他们的测量单位变化了，但是他们的z-score还是恒定的，因此r算出来也是不变的。

第二个细节是（coefficient of determination，也就是correlation coefficient r的平方）。这个大家都知道是proportionof variation of y explained by the regression model。但是这个proportion是什么呢？

我们知道，在regression model中，, 因此，我们有

764799-c0ea579f024e300ac2bfd7d023aa4a7d

(因为与residual independent)。所以大家可以理解为

764799-c563909e23b2bb68b3f0714086f9405d

764799-b3d8f7181dba7a6068db0410e4f71342

如果某道题给你var(residual),也就是大家常见的regression output table里面的 s，同时再给你var(y)，问你如何计算。你只需要计算

764799-279d41ffcec6115c168a6ebec5513a3a ，即可算出

第四部分的概率计算难点在于reversecondition probability，也就是公式的应用。

764799-bcf6f54eedd777340424ddd9650b2f1b

764799-3549920aab50aea240a516596a67ae36

这道题就是典型的reverse conditionprobability题目。假设警报会响是T，不响是NT，有违禁品是C，没有违禁品是NC，那么题目要算的是P(C|T)，给的条件是P(T|C)=97%, P(T|NC)=15%，P(C)=1/1000。根据公式，

764799-dec16465a8a7852b4ac061392642e47a

我们发现题目并没有P(T)，怎么办？这也是所有这类题型的难点所在，常常是公式的分母需要在题目中挖掘和计算出来。

大家可以思考一下，警报会响，有可能是有违禁品，也有可能是没有违禁品。在这1000个包裹里，1个是含违禁品的，那么这1个包裹会响的个数就是1*P（T|C），而999个是没有的，那么他会响的个数就是999*P(T|NC)，因此，会响的个数总共就是1*P（T|C）+999*P(T|NC)=150.82, 764799-277280391a3e56a3da641cc38dcfd82b ,代进刚才的公式即可算出结果。

对于置信区间，绝大部分的题目都是需要同学们进行计算，另外有些比较常见的题目会让大家计算至少需要多少样本数量才能让95%的margin of error 小于某个值。大家只要心中记好计算公式，带进去就可以了。

764799-37ef24b5e2acce642725edfd508a48cb

另外一种常见的考法是考察大家对不同的置信区间的用法以及对应的条件是什么。

764799-9e58b77bbc99ef0c87234eb6585390c9

总结起来就是，只要是proportion，那么一定用z-interval,如果是mean, 那么只要population standard deviation不知道就用t-interval。

千万把里面的公式与应用条件背熟！背熟！背熟！所有的选择题难点就是考察大家对公式的熟练程度。

另外还有关于regression的slope and intercept置信区间计算。

764799-929c73ceca6feba01d81da8a2401ca5c

斜率的置信区间就是 764799-3236f4cd947e3ab52d7cca0e9f964cab , 上面这个例子我们可以直接进行计算： 764799-b0a7c2c91170012806cd52121a6ef4fc 。这里的t取对应的confiden celevel和degree of freedom=n-2即可。

同理，intercept的置信区间为： 764799-a97c9f2934b6560542eddc52df2d8323

最后的hypothesis test与置信区间类似，要求大家计算test-statistics，所以关键的公式还是得背！得背！得背！对于不同的情况用什么test,与置信区间一样，只要是proportion，那么一定用z-test,如果是mean, 那么只要populationstandard deviation不知道就用t-test。

764799-652b005d43cec195fe2382e86d9e6afc

764799-ff078d5440e3b634f534f7dddd801e5a

764799-672a12c12bbc97286d4c466a33dc43b4

764799-d60d12a834c7c589ba989454697ec8bc

最后就是p-value的理解。P-value指的是，如果你的null hypothesis test是对的话，那么你做出来的sample mean(or proportion) 作为极端情况出现的概率。也就是说，如果我们假设中国人平均身高是170cm,你去做一个100人的抽样调查后，得到的平均身高是168cm。P-value指的就是如果咱们中国人平均身高真的就是170cm，你做出来这个168cm的样本，作为极端情况出现的概率时多少。假设是0.003，说明如果我们中国人平均身高真的是170cm的话，你能做出这个样本的概率只有0.003，那么说明中国人平均身高就非常不可能是170cm了。

好了，以上就是潘老师给大家带来的一点小分享。希望对大家有帮助，祝大家考出好成绩！

咨询或AP报名请添加顾问微信

翰林主站-赵鑫磊组活码