非线性回归


非线性回归

文章插图
非线性回归【非线性回归】非线性回归是回归函式关于未知回归係数具有非线性结构的回归 。常用的处理方法有回归函式的线性叠代法、分段回归法、叠代最小二乘法等 。非线性回归分析的主要内容与线性回归分析相似 。
基本介绍中文名:非线性回归
外文名:non-linear regression
一级学科:数理科学
二级学科:数学术语
基础:大量观察数据
方法:数理统计方法
回归分析法所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变数与自变数之间的回归关係函式表达式(称回归方程式) 。回归分析中,当研究的因果关係只涉及因变数和一个自变数时,叫做一元回归分析;当研究的因果关係涉及因变数和两个或两个以上自变数时,叫做多元回归分析 。此外,回归分析中,又依据描述自变数与因变数之间因果关係的函式表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析 。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以藉助数学手段化为线性回归问题处理 。非线性回归简介如果回归模型的因变数是自变数的一次以上函式形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归 。这类模型称为非线性回归模型 。在许多实际问题中,回归函式往往是较複杂的非线性函式 。非线性函式的求解一般可分为将非线性变换成线性和不能变换成线性两大类 。处理方法可线性化问题处理可线性化处理的非线性回归的基本方法是,通过变数变换,将非线性回归化为线性回归,然后用线性回归方法处理 。假定根据理论或经验,已获得输出变数与输入变数之间的非线性表达式,但表达式的係数是未知的,要根据输入输出的n次观察结果来确定係数的值 。按最小二乘法原理来求出係数值,所得到的模型为非线性回归模型(nonlinear regression model) 。不可线性化问题对实际科学研究中常遇到不可线性处理的非线性回归问题,提出了一种新的解决方法 。该方法是基于回归问题的最小二乘法,在求误差平方和最小的极值问题上,套用了最最佳化方法中对无约束极值问题的一种数学解法——单纯形法 。套用结果证明,这种非线性回归的方法算法比较简单,收敛效果和收敛速度都比较理想 。
非线性回归

文章插图
非线性回归在熟练掌握最小二乘法的情况下,解决上述问题的关键是确定曲线类型和怎样将其转化为线性模型 。确定曲线类型一般从两个方面考虑:一是根据专业知识,从理论上推导或凭经验推测、二是在专业知识无能为力的情况下,通过绘製和观测散点图确定曲线大体类型 。
非线性回归

文章插图
非线性回归非线性回归例题例1:1790-1960某国人口变化数据:注意:即便线性方程对对观测数据拟合相当好,但有关误差项的独立性和方差假设有可能被破坏 。原因是时间序列的数据误差项往往不独立,误差项大小有可能根据数据总体的大小而变化,意思就是,即便适合这个样本的观测量的方程,但是,不适合总体 。根据经验,人口增长模型不能被转化为线性模型,所以,可以利用曲线回归或者非线性回归 。进一步比较究竟是曲线回归好还是非线性回归好,需要建立新的残差变数,这一步并不难,就是在spss中,相应分析的保存子对话框中建立新的对应模型的变数 。其实,有一个万能公式:spss中,所有的“保存”对话框的功能都是,在二维表视窗也就是spss的盛放数据视窗中建立新变数,这个新变数有默认名,是相应分析的重要结果 。保存新变数以后,需要根据残差的序列图进行判断:最平稳的就是最合适的 。例2:血中药物浓度和时间曲线呈非线性关係 。这个是根据专业背景知识而判断 。药物不可能马上见效,也许在血液中逐步或者突然见效 。例3:身高和体重,在青少年中,是呈直线关係,因为,青少年在不断成长,但是,对于整个人的生命周期,确是曲线关係 因为,成年人的身高一般是确定的 。像这样的例子根本用直线回归拟合不了,也称为非本质线性模型 。对于这种实际情况,可以使用非线性回归的分段模型 。最终目的是使残差平方和最小 。也就是在图形中跟大多数散点接近 。利用SPSS做非线性回归注意事项1 初始值确定:①利用简单假设确定,例如,如果在所有变数中最大的一个个案值为178万,就需要选择200为初始值,再根据方程估计参数值 。②利用图形或者图形辅助,数据转换如果参数没有初始值,也不能简单的设定为0,要将它们设定为预计要改变的值大小 。总之,就是想办法找到一个比较合适的值,多设几个,然后比较 。也可以根据专业背景和重点,来设值 。这个还可以根据数学计算,例如,方程二边同时取对数 。需要具体问题具体分析 。2 叠代和收敛:叠代是计算机自动计算的,例如将叠代设定为1000,意思就是计算机算了1000次,每一次都是根据上一次的结果的基础进行再运算 。当然,人工笔算需要算1000年 。叠代不会永无止境的计算下去,而是收敛标準或者称作最大叠代的设定后,不论得没有得到结果,是否达到目标,都会停止 。在结果输出表格中有叠代的历史记录 。这个表格就是过程表,每一步怎样算的,都可以找到 。因为叠代是计算机自动计算,例如,烧水,如果开了不断电,水烧乾了就会起火,所以,机器需要人控制,它本身没有情感 。spss操作:不论“计算变数”对话框或者“非线性回归”,和非线性回归的“损失函式”对话框都是很像的,有一个计算器算盘,函式组,函式和特殊变数 。各种元素组合在一起,构成一个表达式,这个表达式构成一个新变数 。只要用滑鼠将对应的元素加入到表达式中,然后检查,或者事先在本上写有表达式,对应好,基本就没有问题 。其实,spss许多操作根据文字可以猜出个大概 。3 损失函式:“非线性回归”对话框是对整个因变数的运算法则,但是,损失函式是对某一个统计量的运算法则,spss默认是使用最小残差平方和找出非线性模型,也可以自己设定 。在相应对话框中都有设定 。可以这样以为:损失函式就是估计误差的函式,它是一个负面指标,越小越好 。4 参数约束:多数非线性模型中,参数必须限制在有意义的区间内 。指的是在叠代过程中对参数的限制 。分为线性约束和非线性约束 。线性约束中将参数乘以常数 但这个常数不能为其他参数或者自身 。非线性约束中至少有一个参数和其他参数相乘或者相除或者进行幂运算 。结果比较1 估计参数的渐进相关矩阵:如果出现非常大的正值或者负值,可能因为模型中参数过多,也说明观测量数目不足,但是不说明模型不拟合 。2 95%置信区间:如果95%置信区间不包括零,表明这个参数具有统计学意义 。如果离零比较接近,下结论时候应慎重 。3 曲线拟合中计算出来的决定係数实际上是曲线直线化直线方程的决定係数,不一定代表变换前的变异解释程度 。也就是说二个模型的决定係数有可能不具有可比性 。