设计矩阵(英语:design matrix;model matrix、regressor matrix)在统计学和机器学习中,是一组观测结果中的所有解释变量的值构成的矩阵,常用X表示。设计矩阵常用于一些统计模型,如一般线性模型,方差分析中。
定义
通常情况下,设计矩阵的第i行代表第i次观测的结果,第j列代表第j种解释变量。如此一来,线性回归模型就可以用矩阵乘法表达为
-
其中 是设计矩阵, 是对应每一种解释变量的系数组成的系数向量, 是每一个观测对应的预测值构成的向量。[1]
例子
算数平均
算数平均的设计矩阵是一个全为1的列向量。
简单线性回归
本节给出了一个简单线性回归的例子,其中有一个解释变量和有七个观测值。这七个数据点是 。该简单线性回归模型可以表示为:
-
其中 为y轴的截距, 是回归线的斜率。该模型可以表示为矩阵形式:
-
其中设计矩阵中的第一列用以估计y轴的截距,而第二列包含与相应y值相关的x值。
多元回归
本节给出了一个有两个协变量(解释变量)的多元回归例子: 和 。假设数据由七个观测值组成,对于每个待预测的观测值 ,两个协变量的值 和 也被观察到。该模型可以表示为:
-
该模型可以表示为矩阵形式:
-
右侧的 矩阵即为设计矩阵。
参考文献
- ^ Everitt, B. S. Cambridge Dictionary of Statistics 2nd. Cambridge, UK: Cambridge University Press. 2002. ISBN 0-521-81099-X.
延伸阅读
- Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (编). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.