发布网友
共1个回答
热心网友
变量选择有很多种方法。
最老套的是 f-statistics,应该就是答主p-value的来源。
接下来就是一系列penalize 变量数的指标,包括adjusted R2,Mallow's Cp, AIC, BIC这一类,原则上可以通过穷尽所有2^p组合来挑选变量,实际操作中通常采用forward backward 的方法。如果数据多变量也多的话,计算量还是很大。以上指标应该也可以用cross validation的MSE代替。
上面这种方法可以看做是某种形式的L-0正则,当然也可以用L-1的正则,那就是lasso了,这个计算量比较小,所以比较流行一些。