当前位置:蜗牛素材网>综合资讯>科技>正文

数据分析平均数方差:每天一点统计学,卡方分布

人气:128 ℃/2024-02-07 10:05:30

抽样分布有三大应用:T分布、卡方分布和F分布。可以简单用四个字概括它们的作用:“以小博大”,即通过小数量的样本容量去预估总体容量的分布情况。这里开始介绍卡方分布。

卡方分布的定义

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

卡方分布的概率密度函数

和t分布一样,卡方分布也是一个分布族,其形状也是由参数自由度v来决定,其中,v = n - 1 (n为样本大小)每个整数自由度对应一个分布。卡方分布以下几个特征:

1、当v等于1或2时,卡方分布是一条先高后低的曲线

2、当v大于2时,卡方分布的形状发生改变,曲线呈具有偏度的钟型;

3、当v很大时,曲线接近正态分布;

卡方分布的概率密度函数

卡方分布的概率密度函数的计算是依赖于一个样本统计量χ2(读作“卡方”),卡方的计算公式如下:

卡方的计算公式

卡方的概率密度函数计算公式如下:

卡方的概率密度函数

卡方分布的用途

卡方分布主要用于检查实际结果与期望结果之间何时存在显著差别,它主要有两个用途:

  1. 用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;

  2. 检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联。

例子:下面是一台老虎机的期望概率分布图,其中X表示每一句游戏的收益:

我们收集了1000局游戏的数据,并记录了每种结果的观察频数和期望频数。所谓观察频数,就是每种收益结果的发生次数。而期望频数就是样本大小乘以收益发生的概率:

我们如何知道实际发生结果是真实的,还是被人操纵呢?换句话说:如何对观察频数和期望频数之间的差异进行量度呢?这取决于显著性水平α

用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。通过查看检验统计量(即卡方)是否位于右尾的拒绝域以内,就可以判定根据期望分布得出结果的可能性。用显著性水平α进行检验,可以写作:

显著性水平

拒绝域示意图如下:

拒绝域

求解卡方分布的拒绝域,可以使用卡方概率表

卡方概率表

如果显著性水平是5%,就可以判定老虎机受人操纵。根据这个标准来进行计算:

1、确定要进行检验的假设;

假设:每局收益不符合概率分布

2、求出期望频数和自由度;

期望频数已经记录,每局游戏可能出现5种结果,即自由度v=4

3、确定用于做决策的拒绝域;

自由度为4.显著性水平位5%的决绝域。

根据卡方概率表,可得出拒绝域为卡方>9.49的范围

(卡方概率表,横轴代表显著性水平,竖轴代表自由度,交叉值即为临界值)

4、计算检验统计量卡方;

根据卡方的计算公式,可得出检验统计量为38.272

5、查看检验统计量是否位于拒绝域以内;

检验统计量在拒绝域以内(38.272> 9.49)

6、作出决策

所以假设是错误的,老虎机收益结果符合概率分布

搜索更多有关“数据分析平均数方差:每天一点统计学,卡方分布”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
本网站部分内容、图文来自于网络,如有侵犯您的合法权益,请及时与我们联系,我们将第一时间安排核实及删除!
CopyRight © 2008-2024 蜗牛素材网 All Rights Reserved. 手机版