回归分析的常见题型
作者:刘坚 肖明春
来源:《高中生学习·高二文综版》2014年第11期
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,在高考中以考查相关关系、线性回归方程的相关概念,回归分析的基本思想及其应用为主. 类型一 相关关系的判断
例1 下列量与量的关系中,是相关关系的是( ) ①正方体的体积与棱长间的关系 ②光照时间和果树亩产量 ③降雪量和交通事故发生率 ④每亩施用肥料量和粮食亩产量
⑤已知二次函数[y=ax2+bx+c],其中[a,c]是已知常数,取[b]为自变量,因变量是这个函数的判别式[Δ=b2-4ac] A. ①②③ B. ②③④ C. ③④⑤ D. ①④⑤
解析 ①中设正方体的体积为V,棱长为a ,则[V=a3],则V与a之间是一种确定的关系,是函数关系,⑤中[Δ]与b之间也是函数关系,只有②③④中两个变量之间的关系都是相关关系. 答案 B
点拨 要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的,不确定的.
类型二 线性回归方程的有关概念
对于一组具有线性的相关关系的数据[(x1,y1),(x2,y2),…,(xn,yn),]其回归直线[y=bx+a]的斜率[b和a]的截距分别是使“偏差平方和”[Q(α,β)=i-1n(yi-βxi-α)2]取最小值时,[β,α]的选择值.
龙源期刊网 http://www.qikan.com.cn
例2 由一组样本数据[(x1,y1),(x2,y2),…,(xn,yn)]得到的回归方程[y=bx+a,]其中正确的论述有( ) ①直线[y=bx+a必经过点(x,y)]
②直线[y=bx+a]至少经过点[(x1,y1),(x2,y2),…,(xn,yn)]中的一个点 ③[直线y=bx+a的斜率b=i=1nxiyi-nxyi=1nxi2-nx2]
④直线[y=bx+a]和各点[(x1,y1),(x2,y2),…,(xn,yn)]的偏差[i=1n[yi-(bxi+a)]2]是该坐标平面上所有的直线与这些点的偏差中最小的 A. 0个 B. 1个 C. 2个 D. 3个
解析 回归直线方程[y=bx+a]必经过样本中心点[(x,y)],可能不经过[(x1,y1),(x2,y2),…,(xn,yn)]中的任何一个点,这些点都分布在这条直线附近. 答案 D
点拨 [回归直线方程y=bx+a]必经过样本点的中心[(x,y)],再就是体会最小二乘法估算的思想方法,深刻理解与之有关的概念. 类型三 散点图、相关系数
例3 对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) 线性相关系数[r1] 线性相关系数[r2] 线性相关系数[r3] 线性相关系数[r4] A. [r2 C. [r4
解析 由散点图易知,图1和图3中两个变量是正相关,且图1中,线性相关性比图3强,所以[r1>r3>0]. 图2和图4中两个变量是负相关,且图2中线性相关比图4强,所以[|r2|>|r4|]. 又由于[r2-r4],即[r2
龙源期刊网 http://www.qikan.com.cn
答案 A
点拨 (1)点分布在从左下角到右上角的区域时,两个变量的相关关系为正相关,相关系数[r>0];点分布在从左上角到右下角的区域时,两个变量的相关关系为负相关,相关系数[r 例4 甲、乙、丙、丁四位同学各自对[A,B]两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
[\&甲\&乙\&丙\&丁\&[r]\&0.82\&0.78\&0.69\&0.85\&[m]\&115\&106\&124\&103\&]
则哪些同学的试验结果体现[A,B]两变量更强的线性相关性的是( ) A. 甲 B. 乙 C. 丙 D. 丁
解析 [r]的绝对值越接近于1,残差平方和越小,线性相关性越强. 答案 D
类型四 求回归方程及用回归方程进行估计
例5 某地区2007年至2013年农村居民家庭人均收入[y](单位:千元)的数据如下表. [年份\&2007\&2008\&2009\&2010\&2011\&2012\&2013\&年份代号[t]\&1\&2\&3\&4\&5\&6\&7\&人均纯收入\&2.9\&3.3\&3.6\&4.4\&4.8\&5.2\&5.9\&]
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 解析 由所给数据计算得, [t=17(1+2+3+4+5+6+7)=4],
[y=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,] [i=17(ti-t)2=9+4+1+0+1+4+9=28,]
[i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1]
龙源期刊网 http://www.qikan.com.cn
[+1×0.5+2×0.9+3×1.6=14.]
即 [b=i=17(ti-t)(yi-y)i=17(ti-t)2=1428=0.5,] [a=y-bt=4.3-0.5×4=2.3.]
所以所求回归方程为:[y=0.5t+2.3.]
(2)由(1)知,[b=0.5>0],故2007年至2013年该地区农村居民家庭人均收入逐年增加,平均每年增加0.5千元,将2015年的年份代号[t=9]代入(1)中的回归方程得, [y=0.5×9+2.3=6.8.]
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
点拨 理解系数[b]的实际意义,并明确所求回归方程只表示对实际数量的一个估计、预测. 例6 下面是1至6月份,每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
[日期\&1月10号\&2月10号\&3月10号\&4月10号\&5月10号\&6月10号\&昼夜温差[x]
(摄氏度)\&10\&11\&13\&12\&8\&6\&就诊人数[y] (个)\&22\&25\&29\&26\&16\&12\&]
先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行实验.
(1)若选取的是1月与6月的两组数据,请根据2月至5月份的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得到线性回归方程是否理想?
解析 (1)由数据求得[x=11;y=24,]由公式求得[b=187,再由a=y-bx,求得a=-307.] 所以y关于x的线性回归方程为[y=187x-307.] (2)当[x=10]时,[y=1507,|1507-22|=47
龙源期刊网 http://www.qikan.com.cn
同时,当[x=6]时,当时[y=787,|287-12|=67 所以,该小组所得的线性回归方程是理想的.
龙源期刊网 http://www.qikan.com.cn
龙源期刊网 http://www.qikan.com.cn
因篇幅问题不能全部显示,请点此查看更多更全内容