社区
其他开发语言
帖子详情
R语言进行logistic回归的时候,如何展示同一个分类变量不同水平的回归系数
小光辉岁月
2019-10-26 01:41:24
logistic回归的时候,R语言如何展示同一个分类变量不同水平的回归系数。 就是比如图中的英语水平 如何得到过六级和没过六级的回归系数和受教育水平中的博士和博士以上的回归系数?
...全文
349
回复
打赏
收藏
R语言进行logistic回归的时候,如何展示同一个分类变量不同水平的回归系数
logistic回归的时候,R语言如何展示同一个分类变量不同水平的回归系数。 就是比如图中的英语水平 如何得到过六级和没过六级的回归系数和受教育水平中的博士和博士以上的回归系数?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
数学建模基础知识培训 数学建模培训资料
logistic回归
分析 共86页.ppt
logistic回归
为概率型非线性回归模型,是研究
分类
观察结果(y)与一些影响因素(x)之间关系的一种多
变量
分析方法
负二项回归(第2版) Negative binomial regression,2nd ed
作者:Joseph Michael Hilbe,Wiki简介:https://en.wikipedia.org/wiki/Joseph_Hilbe 负二项回归属于广义线性回归(GLM)的分支,与
Logistic回归
、Poisson回归等都属于计数数据模型的范畴,主要用于以
分类
变量
、定序
变量
为因
变量
的回归分析之中。 负二项回归家族庞大,逐渐应用于社会科学领域各个学科的统计分析建模之中,本书详细介绍了负二项回归分析的原理以及该模型的多种变体,为该方法的学习提供了重要指导。
第三章:
Logistic回归
模型
本章介绍
Logistic回归
分类
模型,并通过案例讲解如何使用
Logistic回归
模型。
7个回归分析方法思维导图.png
7个回归分析方法 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因
变量
(目标)和自
变量
(预测器)之间的关系。 这种技术通常用于 预测分析、 时间序列模型 以及发现
变量
之间的因果关系。 例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。 在这里,我们使用曲线/线来拟合这些数据点, 在这种方式下,从曲线或线到数据点的距离差异最小。 我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个
变量
之间的关系。 下面,让我们举一个简单的例子来理解它: 比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。 现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。 那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。 使用回归分析的好处良多。 具体如下: • 它表明自
变量
和因
变量
之间的显著关系 它表明多个自
变量
对一个因
变量
的影响强度 回归分析也允许我们去比较那些衡量
不同
尺度的
变量
之间的相互影响,如价格变动与促销活动数量之间联系。 这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的
变量
,用来构建预测模型。 我们有多少种回归技术? 有各种各样的回归技术用于预测。 这些技术主要有三个度量 (自
变量
的个数, 因
变量
的类型 回归线的形状)。 对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。 但在你开始之前,先了解如下最常用的回归方法: 1. 线性回归(Linear Regression) 线性回归通常是人们在学习预测模型时首选的技术之一。 在这种技术中, 因
变量
是连续的, 自
变量
可以是连续的也可以是离散的, 回归线的性质是线性的。 线性回归使用最佳的拟合直线(也就是回归线) 在因
变量
(Y)和一个或多个自
变量
(X)之间建立一种关系。 用一个方程式来表示它,即 Y=a+b*X + e, 其中a表示截距, b表示直线的斜率, e是误差项。 这个方程可以根据给定的预测
变量
(s)来预测目标
变量
的值。 现在的问题是:我们如何得到一个最佳的拟合线呢? 这个问题可以使用最小二乘法轻松地完成。 一元线性回归和多元线性回归的区别在于, 多元线性回归有(>1)个自
变量
, 而一元线性回归通常只有1个自
变量
。 最小二乘法也是用于拟合回归线最常用的方法。 对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。 因为在相加时,偏差先平方,所以正值和负值没有抵消。 我们可以使用R-square指标来评估模型性能。 要点: • 自
变量
与因
变量
之间必须有线性关系 • 多元回归存在多重共线性,自相关性和异方差性 线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值 多重共线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常敏感。 结果就是系数估计值不稳定, 在多个自
变量
的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自
变量
。 2. 逻辑回归(Logistic Regression) 逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。 当因
变量
的类型属于二元(1 / 0,真/假,是/否)
变量
时,我们就应该使用逻辑回归。 这里,Y的值从0到1,它可以用下方程表示。 odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence ln(odds) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk 概要 上述式子中,p表述具有某个特征的概率。 你应该会问这样一个问题:我们为什么要在公式中使用对数log呢? 因为在这里我们使用的是的二项分布(因
变量
),我们需要选择一个对于这个分布最佳的连结函数。 它就是Logit函数。 在上述方程中,通过观测样本的极大似然估计值来选择参数, 而不是最小化平方和误差(如在普通回归使用的)。 要点: • 它广泛的用于
分类
问题。 逻辑回归不要求自
变量
和因
变量
是线性关系。 它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。 逻辑回归是用于
分类
的~这个得记住 为了避免过拟合和欠拟合,我们应该包括所有重要的
变量
。 有一个很好的方法来确保这种情况, 就是使用逐步筛选方法来估计逻辑回归。 它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 自
变量
不应该相互关联的,即不具有多重共线性。 然而,在分析和建模中,我们可以选择包含
分类
变量
相互作用的影响。 • 如果因
变量
的值是定序
变量
,则称它为序逻辑回归 • 如果因
变量
是多类的话,则称它为多元逻辑回归 3. 多项式回归(Polynomial Regression) 对于一个回归方程,如果自
变量
的指数大于1,那么它就是多项式回归方程。 如下方程所示:y=a+b*x^2 在这种回归技术中,最佳拟合线不是直线。 而是一个用于拟合数据点的曲线。 重点: 虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。 你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。 下面是一个图例,可以帮助理解: 明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。 更高次的多项式最后可能产生怪异的推断结果。 4. 逐步回归(Stepwise Regression) 在处理多个自
变量
时,我们可以使用这种形式的回归。 在这种技术中,自
变量
的选择是在一个自动的过程中完成的,其中包括非人为操作。 这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的
变量
。 逐步回归通过同时添加/删除基于指定标准的协
变量
来拟合模型。 下面列出了一些最常用的逐步回归方法: • 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。 • 向前选择法从模型中最显著的预测开始,然后为每一步添加
变量
。 • 向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的
变量
。 这种建模技术的目的是使用最少的预测
变量
数来最大化预测能力。 这也是处理高维数据集的方法之一。 5. 岭回归(Ridge Regression) 岭回归分析是一种用于存在多重共线性(自
变量
高度相关)数据的技术。 在多重共线性情况下,尽管最小二乘法(OLS)对每个
变量
很公平,但它们的差异很大,使得观测值偏移并远离真实值。 岭回归通过给回归估计上增加一个偏差度,来降低标准误差。 上面,我们看到了线性回归方程。还记得吗? 它可以表示为:y=a+ b*x 这个方程也有一个误差项。完整的方程是: y=a+b*x+e (error term) , [error term is the value needed to correct for a prediction error between the observed and predicted value] => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables. 在一个线性方程中,预测误差可以分解为2个子分量。 一个是偏差, 一个是方差。 预测错误可能会由这两个分量或者这两个中的任何一个造成。 在这里,我们将讨论由方差所造成的有关误差。 岭回归通过收缩参数λ(lambda)解决多重共线性问题。 看下面的公式: 在这个公式中,有两个组成部分。 第一个是最小二乘项, 另一个是β2(β-平方)的λ倍,其中β是相关系数。 为了收缩参数把它添加到最小二乘项中以得到一个非常低的方差。 要点: 除常数项以外,这种回归的假设与最小二乘回归类似; 它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。 6. 套索回归(Lasso Regression) 它类似于岭回归。 Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚
回归系数
的绝对值大小。 此外,它能够减少变化程度并提高线性回归模型的精度。 看看下面的公式: Lasso 回归与Ridge回归有一点
不同
,它使用的惩罚函数是绝对值,而不是平方。 这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。 使用惩罚值越大,进一步估计会使得缩小值趋近于零。 这将导致我们要从给定的n个
变量
中选择
变量
。 要点: • 除常数项以外,这种回归的假设与最小二乘回归类似 • 它收缩系数接近零(等于零),确实有助于特征选择 这是一个正则化方法,使用的是L1正则化 7. 回归(ElasticNet) ElasticNet是Lasso和Ridge回归技术的混合体。 它使用L1来训练并且L2优先作为正则化矩阵。 当有多个相关的特征时,ElasticNet是很有用的。 Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。 Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。 要点: 它可以承受双重收缩 • 选择
变量
的数目没有限制 • 在高度相关
变量
的情况下,它会产生群体效应 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。 我的老师曾告诉我,如果结果是连续的,就使用线性回归。 如果是二元的,就使用逻辑回归! 然而,在我们的处理中,可选择的越多,选择正确的一个就越难。 类似的情况下也发生在回归模型中。 在多类回归模型中,基于自
变量
和因
变量
的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。 以下是你要选择正确的回归模型的关键因素: 1. 数据探索是构建预测模型的必然组成部分 在选择合适的模型时,比如识别
变量
的关系和影响时,它应该首选的一步。 2. 比较适合于
不同
模型的优点,我们可以分析
不同
的指标参数 如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows' Cp准则。 这个主要是通过将模型与所有可能的子模型
进行
对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。 3. 交叉验证是评估预测模型最好额方法 在这里,将你的数据集分成两份(一份做训练和一份做验证)。 使用观测值和预测值之间的一个简单均方差来衡量你的预
基于GIS的分组数据Logistic模型在斜坡稳定性评价中的应用 (2005年)
分组数据
Logistic回归
是针对因
变量
为定性
变量
、自
变量
为
分类
变量
的一种解决方案,加权最小二乘法可用来求解该方程。将巫山县新城西区作为试验区,选取岩性、坡度、高程、地下水位埋深、距最近有影响构造线距离5种因素为斜坡稳定性影响因素,以试验区历史滑坡发生为因
变量
,建立了区域斜坡稳定性评价的分组数据
Logistic回归
方程,
进行
了回归方程显著性检验和
回归系数
显著性检验,最后利用回归方程对全区斜坡稳定性
进行
预测。模型拟合精度为:以滑坡发生概率0.157。9为判据,滑坡发生样本的判对率为72.55%,滑坡不发生样
其他开发语言
3,424
社区成员
15,635
社区内容
发帖
与我相关
我的任务
其他开发语言
其他开发语言 其他开发语言
复制链接
扫一扫
分享
社区描述
其他开发语言 其他开发语言
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章