变量间的非线性关系 变量之间的非线性可以划分为


变量间的非线性关系 变量之间的非线性可以划分为

文章插图
之前的文章中都是给大家写的变量间线性关系的做法,包括回归和广义线性回归,变量间的非线性关系其实是很常见的,今天给大家写写如何拟合论文中常见的非线性关系 。包括多项式回归Polynomial regression和样条回归Spline regression 。
多项式回归首先看一个二次项拟合的例子,我现在想探讨苹果内容物apple content和苹果酸度cider acidity的关系,第一步应该是做出apple content和cider acidity关系的散点图,假如是下图:


那么我很直观地可以看出来,曲线(二次)对数据的拟合明显是好于线性拟合的 。
上面的只是一个2次项拟合的例子,我们其实经常会遇到有可能高次式会把数据拟合的更好,社科论文中其实也常常见到做高次回归的,常见的1次,2次,3次,4次项英文论文中的表达,曲线形状如下:




拟合出来的一般模型表达式如下:


而且通常情况下,模型中所有的低次项都不应该被略去 。就是我有了4次项,那么应该3,2,1次项都应该有 。
含有二次及以上的模型就叫多项式回归模型 。
样条回归之前在机器学习的文章中有给大家写过拟合,我们做多次项拟合的时候,按道理你可以将项的次数调得很高,总是可以近乎完美的拟合我们的复杂的非线性关系,但是问题就是外推性就没有了,这也并不是我们想看到的结果:
High-degree polynomials allow us to capture complicated nonlinear relationships in the data but are therefore more likely to overfit the training set.
还有就是自变量和因变量之间的关系在自变量的不同取值范围也并非不变的,比如某个区间是线性的,某个区间是2次曲线,某个区间又成了3次曲线 。
上面两个问题处理方法之一就是样条splines
所谓样条就是成片段的多次式,一个曲线分多段拟合,段与段之间的分割点叫做结knots
A spline is a piecewise polynomial function. This means it splits the predictor variable into regions and fits a separate polynomial within each region, which regions connect to each other via knots.


上图便是用两个结将我们的曲线分成了3个样条 。
通过对关系曲线的划分,我们可以尽可能达到既拟合的好,又好解释的目的
我们在论文中还会有看到说限制性立方样条(restricted cubic splines),这个又是个啥呢?
就是我们正常做样条,有可能做出来就是这样的:虽然分段但是不连贯:
这样的情况下结点处,不连贯的地方解释起来就会很困难了嘛 。
所以,我们更加期望能够得到一个平滑的曲线(增加可解释性),而且首尾都应该是线性的,从而保证预测准确性(减少过拟合的影响),像这样:


为了得到这么样的效果我们就会给样条加上限制,所以叫做限制性立方样条:
restrictions need to be imposed so that the spline is continuous (i.e., there is no gap in the spline curve) and “smooth” at each knot 。A restricted cubic spline has the additional property that the curve is linear before the first knot and after the last knot.
样条数量的确定和结位置的选择也是有讲究的,结的个数可以自己定,但是一般不超过5个;结的位置需要尽可能在拐弯的地方
The number of knots used in the spline is determined by the user, but in practice we have found that generally five or fewer knots are sufficient. The location of the knots also needs to be specified by the user, but it is common that the knot with the smallest value is relatively close to the smallest value of the variable being modelled (e.g., the 5th percentile), while the largest knot is in the neighbourhood of the largest value of the variable being modelled (e.g., the 95th percentile).


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: