77百科网
当前位置: 首页 生活百科

统计学偏离值(统计学常犯错误TOP榜)

时间:2023-06-17 作者: 小编 阅读量: 3 栏目名: 生活百科

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

1. 变量之间关系可以分为两类:

函数关系:反映了事务之间某种确定性关系

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2. 为什么要对相关系数进行显著性检验?

实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)

当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;

改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;

3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;

4. 多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1 x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;

6. 什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;

一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!

7. 假设检验显著性水平的两种理解:

显著性水平:

通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用 表示;凡出现概率小于显著性水平的事件称小概率事件;

通过两类错误理解: 为拒绝域面积

8. 中心极限定律与大数定理:

大数定理---正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;

中心极限定理---正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。

9. 方差

方差能最大程度的反映原始数据信息;

反映了一组数据相对于平均数的波动程度,相比于

,其平方项更放大了波动,且差的平方在数学公式推导上有大用。

10. 使用最小二乘法条件:

  • 自变量之间不能存在完全共线性;
  • 总体方程误差项服从均值为0的正态分布(大数定理)
  • 误差项的方差不受自变量影响且为固定值;(同方差性)

11. 最大似然估计与最小二乘法区别

  • 最小二乘法是基于几何意义上距离最小
  • 最大似然估计是基于概率意义上出现的概率最大
  • 最小二乘法:对数据分布无要求
  • 最大似然估计:需要知道概率密度函数

12. 关于H0与H1

H0:原假设,零假设----零是相关系数为0,说明两个变量无关系

H1:备用假设

第一类:原H0是真,却拒绝原假设;犯

类错误

第二类:原H0是假,却不拒绝原假设;犯

类错误

通常只能犯两种错误中的一种,且

增加,

减少

通常,

类错误是可控的,先设法降低第一类错误概率

13. 什么是双尾检验,单尾检验?

1)当H0采用等号,而H1采用不等号,双尾检验

2)当H0是有方向性的,单尾检验

14. P值

  • 当原假设为真时,比所得到的样本观察,结果更极端的结果会出现的概率。
  • 如果P值很小,我们拒绝原假设的理由越充分。
  • P的意义不表示两组差别大小,p反映两组差别有无统计学意义
  • 显著性检验只是统计结论,判断差别还需要专业知识;

15. T检验与U检验

  • 当样本容量n够大,样本观察值符合正态分布,可采用U检验
  • 当样本容量n较小,若观测值符合正态分布,可采用T型检验

16. 方差分析

主要用于两样本及以上样本间的比较,又被称为F检验,变异数分析;

基本思想:通过分析研究不同来源的变异对总体变异的贡献大小,从而确定可控因素对研究结果影响力的大小;

总变异可以被分解为组间变异与组内变异

  • 组间变异:由于不同实验处理而造成的各组之间的变异
  • 组内变异:组内各被适变量的差异范围所呈现的变异

17. 直方图:对数据进行整体描述,突出细节

箱线图:对数据进行概要描述,或对不同样本进行比较。箱线图可以让我们迅速了解数据的汇集情况(这个样本,紧密的集合在一起;哇,这个样本不那么密集;这个样本,大部分向左偏,哇,这个样本大部分向右偏。)

但是请注意:一个直方图比1000个p值更重要,拿到数据先绘制散点图、直方图、箱线图看看,再决定用什么描述!

18. 箱线图

对于分位数的理解:线图看数据分布特征统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。所以,四分位数有三个!四指四等份!

  • 第一四分位数:下四分位数;等于该样本中所有数值由小到大排列后第25%的数字(所以下四分位数可以不是样本中的数值,它是一个统计指标(就像平均数一样,不一定是原数据中的一点)
  • 第二四分位数:中位数
  • 第三四分位数:上四分位数

其中,下四分位数与上四分位数的距离叫四分位距!(IQR)

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

    推荐阅读
  • 隔离霜的目的(隔离霜的作用是什么)

    隔离霜的目的随着大气环境的恶化以及臭氧层的破坏,肌肤暴露在外面,总会受到这样那样的伤害,而有了隔离作用的隔离霜,可以把这种伤害降低到最低程度。隔离霜不仅仅口可以隔离太阳紫外线及空气中污浊颗粒、灰尘对肌肤的伤害,更能隔离各种彩妆对肌肤的侵袭伤害。这样更能延缓皮肤的衰老,让肌肤始终保持和健康和活力。

  • 葡萄蒸馏酒保质期多久(用葡萄酿的酒保质期是多久)

    葡萄蒸馏酒保质期是5-10年。即使在开瓶使用后,也可存放一年以上的时间而不变质。因此在酒吧中,烈酒可以散卖、调酒甚至经常开盖而不必考虑其是否很快变质。

  • 买房贷款需要什么手续(需要的手续是什么)

    买房贷款需要什么手续购房者在办理按揭贷款买房时,有以下流程:签订购房合同。此时需要注意审查“五证”:《国有土地使用证》、《建设用地规划许可证》、《建设工程规划许可证》、《建筑工程施工许可证》、《商品房销售(预售)许可证》。缴付首付款,注意保存首付款收据。到银行填写《个人房屋贷款申请表》。银行审查按揭贷款申请。用以证明此房产上有银行的抵押权。到公证部门办理产权抵押公证,到保险公司办理房屋保险。

  • 节气秋分的古诗(节气秋分的古诗有哪些)

    节气秋分的古诗《秋风词》唐·李白秋风清,秋月明,落叶聚还散,寒鸦栖复惊。此时此夜难为情!入我相思门,知我相思苦。长相思兮长相忆,短相思兮无穷极。早知如此绊人心,何如当初莫相识。《秋夕》唐·杜牧银烛秋光冷画屏,轻罗小扇扑流萤。天阶夜色凉如水,卧看牵牛织女星。《送僧归金山寺》[唐]马戴金陵山色里,蝉急向秋分。迥寺横洲岛,归僧渡水云。夕阳依岸尽,清磬隔潮闻。遥想禅林下,炉香带月焚。

  • 不休的乌拉拉猎人战士术叮叮士萨满推图技能搭配(不休的乌拉拉萨满技能搭配流派大全)

    跟着小编一起来看一看吧!不休的乌拉拉猎人战士术叮叮士萨满推图技能搭配单体:先祖守护、生命图腾、先祖庇佑、反击鼓点、净化鼓点。

  • 鸿门宴原文及翻译(鸿门宴原文及翻译是什么)

    沛公左司马曹无伤使人言于项羽曰:“沛公欲王关中,使子婴为相,珍宝尽有之。”良乃入,具告沛公。鸿门宴翻译沛公驻军霸上,还没有跟项羽见面。沛公的左司马曹无伤派人对项羽说:“沛公打算在关中称王,任命子婴为国相,珍宝全部占有它。”在这时,项羽的军队有四十万,驻扎在新丰鸿门;沛公的军队有十万,驻扎在霸上。楚国的左尹项伯,是项羽的叔父,一向同留侯张良交好。

  • 暖于布帛的上一句是什么(解释及用法)

    接下来我们就一起去研究一下吧!出自《荀子·荣辱》译文:和别人友好的相处,比布帛还要温暖。“与人善言暖于布帛,伤人以言深于矛戟”的用法:⑴言语可以给人带来愉悦,也可以给人带来痛苦。这几句以善言暖于布帛,恶言深于矛戟作比,形象准确地说明了这种感觉意识。

  • 秦九韶算法著作(这种算法是谁提出来的呢)

    以下内容大家不妨参考一二希望能帮到您!秦九韶算法著作秦九韶算法是中国南宋时期的数学家秦九韶提出的一种多项式简化算法。秦九韶,字道古,南宋末年人,出生于鲁郡。早年曾从隐君子学数术,后因其父往四川做官,即随父迁徙,也认为是普州安岳人。其大大简化了计算过程,即使在现代,利用计算机解决多项式的求值问题时,秦九韶算法依然是最优的算法。在西方被称作霍纳算法,是以英国数学家霍纳命名的。

  • 祝福妹妹结婚的话简短(妹妹出嫁的简短祝福语)

    祝福妹妹结婚的话简短?我的好妹妹,你的大喜之日到了,祝愿你跟你跟你的他相亲相爱到永远,同心同德创佳节,洞房之夜种上子,花烛今日喜开花祝结婚快乐!下面希望有你要的答案,我们一起来看看吧!一张桌子四个角,今晚新娘麻不脱。等会我们都走了,看你俩个啷个说。花好月圆新婚夜,四言八句贺新郎。新郎新娘,白头到老,地久天长。路是一步一步走出来的。爱是一点一点换回来的。从今以后你们就要相亲相爱,互相扶持一生。

  • 伤感孤独悲伤的句子大全(有关伤感孤独悲伤的句子)

    伤感孤独悲伤的句子大全灵魂中最深的孤独,是伴随着清醒而来。人类在意所有不能被回馈的感情,并且非常希望所有感情都要被回应。墙后必有我们要的世界,哪怕得不到。自从我们分离,这永远的期限就碎裂无界。我过去不能克服的事一桩桩消失,我过去在乎的也一桩桩消失。或许生的序幕由他人打开,但舞台上的热泪盈眶却必须由自己奏响。从今天起,做自己想做的,羡慕自己,珍惜所拥有的。再不曾怀有轻狂少年时轻易坐拥八方的理想。