用Excel做回归分析

news/2024/7/21 5:50:00 标签: 回归分析, 数据分析, 线性回归, Excel

Excel数据分析工具库是个很强大的工具,可以满足基本的统计分析,这里介绍用Excel数据分析工具库中的回归做回归分析。本文仅作为学习笔记之用,欢迎各位交流指正。

本节知识点:

一、什么是回归分析(Regression)

1、定义

确定两种或两种以上变量间相关关系的一种统计分析方法。通过数据间相关性分析的研究,进一步建立自变量(i=1,2,3,…)与因变量Y之间的回归函数关系,即回归分析模型,从而预测数据的发展趋势。

 

2、分类

  • 按照涉及的变量的多少,分为一元回归和多元回归分析;

  • 按照因变量的多少,可分为简单回归分析和多重回归分析;

  • 按照自变量因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

 

二、线性回归

1、简单线性回归

简单线性回归又叫一元线性回归,即回归模型中只有一个自变量和一个因变量,其回归方程可以表示为:

Y=a+bx+

其中,Y表示因变量,x表示自变量,a是 常数,b是斜率,是随机误差。

 

2、最小二乘法

如何确定参数a和b,则要用最小二乘法来实现。通过最小化误差的平方和寻找数据的最佳函数匹配,即使得观测点和估计点的距离的平方和最小。

 

3、线性回归分析的步骤:

  • 确定自变量和因变量

  • 绘制散点图,确定回归模型类型

  • 估计模型参数,建立回归模型:最小二乘法进行模型参数估计

  • 对回归模型进行检验

  • 利用回归模型进行预测

 

4、多重线性回归

定义:一个因变量与多个自变量的线性回归问题,是一元线性回归的推广。其回归方程可以写为:

 

多重线性回归方程中回归系数的估计也是用到最小二乘法

 

三、用Excel回归分析

我们研究销售额Y和推广费用X1之间的关系,数据如下:

首先我们用数据分析—相关系数分析计算一下自变量和因变量之间的相关系数为0.95157,为强相关。

 

绘制散点图如下:

 

然后,我们用数据分析库里的回归来做分析

 

注意Y值和X值输入区域,X值是自变量,Y是因变量。

 

四、线性回归方程的检验

评价回归拟合程度好坏(重要):

1、  先看回归统计表,Multiple R即相关系数R的值,和我们之前做相关分析得到的值一样,大于0.8表示强正相关。

 

2、  回归统计表中的R Square是R平方值,R平方即R的平方,又可以叫判定系数、拟合优度,取值范围是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不错,60%以下的就需要修正模型了。这个案例里R平方0.9054,相当不错。

 

3、  Adjusted R是调整后的R方,这个值是用来修正因自变量个数增加而导致模型拟合效果过高的情况,多用于衡量多重线性回归

 

4、  第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,Significance F是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即Significance F值,F检验主要是检验因变量与自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当,越小越显著。这个案例里F值很小,说明因变量与自变量之间显著。

 

5、  残差是实际值与预测值之间的差,残差图用于回归诊断,回归模型在理想条件下的残差图是服从正态分布的。

 

6、   第三张表我们重点关注P-value,也就是P值,用来检验回归方程系数的显著性,又叫T检验,T检验看P值,是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义,如果0.01<P值<0.05,则结果具有显著的统计学意义,如果P<=0.01,则结果具有极其显著的统计学意义。T检验是看某一个自变量对于因变量的线性显著性,如果该自变量不显著,则可以从模型中剔除。

 

7、   从第三张表的第一列我们可以得到这个回归模型的方程:y=4361.486+1.198017x,此后对于每一个输入的自变量x,都可以根据这个回归方程来预测出因变量Y。

 

这里简单总结了一下什么是回归分析,以及如何用excel做线性回归分析,入门很简单,精通还很遥远,我们都在学习中。

 

下一节内容:用Excel做直方图(2):频率分布直方图

 

@文章属原创,转载请联系作者

@作者:虾壳,在数据分析的道路上努力奔跑

@微信公众号:可乐的数据分析之路

 


http://www.niftyadmin.cn/n/1517122.html

相关文章

用Excel做直方图(2):频率分布直方图

一、什么是直方图 1、定义 直方图是一种条形图&#xff0c;是以组距为底边、以频数为高度的一系列连接起来的直方型矩形图 2、相关概念 组数&#xff1a;在统计数据时&#xff0c;把数据按照不同的范围分成几个组&#xff0c;分成的组的个数称为组数。 组距&#xff1a;每一…

泰坦尼克号数据分析案例实战

这是一个很经典的案例&#xff0c;很多博主都写过&#xff0c;对&#xff0c;就是它&#xff1a;泰坦尼克号生存率的分析&#xff0c;它是kaggle上的一道题&#xff0c;通过船上乘客的信息分析和建模&#xff0c;预测哪些乘客得以生还。 我们就非常粗暴地拿这个数据集做一个简…

mysql 模式名表名不支持,库名表名大小写问题与sqlserver兼容的启动配置方法 | 很文博客...

库名表名大小写问题与sqlserver兼容的启动配置方法&#xff0c;需要的朋友可以参考下。将全局变量 lower_case_table_names 设置为1实验&#xff1a;1.lower_case_tables_name0的情况(Linux默认)直接启动mysql&#xff0c;在mytest库中新建表MyTable和mytablemysql> use myt…

18个常见的数据分析面试题-概率统计类

总结了一些常见的概率与统计类的数据分析面试题&#xff0c;不定期更新…… 随机变量的含义 一个随机事件的所有可能的值X&#xff0c;且每个可能值X都有确定的概率P&#xff0c;X就是P(X)的随机变量。比如掷骰子中出现的点数 随机变量和随机试验间有什么关系 随机试验&#xf…

zblog php 标题优化,zblog怎么修改网站文章页的SEO标题

最近有好几位朋友反馈目前的SEO标题跟之前的网站模板不一样&#xff0c;可能会导致之前的收录被删除&#xff0c;让我按照他们原来的SEO方案重新修改主题的SEO标题&#xff0c;我直接回绝了&#xff0c;因为是主题的博客模板采用的都是搜索引擎规范的SEO标题写法&#xff0c;主…

mhmm em matlab,连续隐马尔可夫离散隐马尔科夫模型的MATLAB实现

连续隐马尔可夫离散隐马尔科夫模型的MATLAB实现matlab2021-2-14下载地址https://www.codedown123.com/63729.html隐马尔可夫连续和离散情况下的MATLAB实现资源下载此资源下载价格为2D币&#xff0c;请先登录资源文件列表268151113HMM(matlab)/Hidden Markov Model (HMM) Toolbo…

php继承类作用域,PHP 类成员方法的作用域

PHP支持6种方法作用域&#xff1a;public、private、protected、abstract、final和static。本节介绍前5种作用域。public公共方法可以在任何位置任何时间访问。在方法前面加上关键字public&#xff0c;或不加任何关键字&#xff0c;都可以声明一个公共方法。下面的例子展示了如…

matlab调用gams错误,求助:GAMS软件运行中错误报告

我用GAMS软件解决StoNED模型&#xff0c;运行中出现错误报告(第91行)&#xff0c;修改多次仍然没有解决。求高手帮忙&#xff01;正确解决者奖励100论坛币。GAMS Rev 240 WIN-VS8 24.0.2 x86/MS Windows 06/06/14 13:36:47 Page 1G e n e r a l A l g e b r a i…