Линейная регрессия



Рассмотрим вектор факторов регрессии $\overrightarrow{Z}=(Z_1,...,Z_k)$ и вектор неизвестных параметров регрессии $\overrightarrow{\beta}=
(\beta_1,...,\beta_k)$. Будем изучать линейную регрессию

\begin{displaymath}{\bf E}(X\vert\overrightarrow{Z})=\sum_{i=1}^k \beta_i Z_i.\end{displaymath}

Пусть в $i$-м эксперименте факторы регрессии принимают заданные значения

\begin{displaymath}\overrightarrow{Z}^{(i)}=(Z_1^{(i)},...,Z_k^{(i)}),\end{displaymath}

где $i=1,...,n$. После $n\geq k$ экспериментов получен набор откликов $(X_1,...,X_n)$:

\begin{displaymath}\overrightarrow{X}=Z^{T}\overrightarrow{\beta}+\overrightarrow{\varepsilon},\end{displaymath}

с матрицей плана $Z(k\times n)$

\begin{displaymath}
\left(\begin{array}{ccc}
Z_{1}^{(1)} & \ldots & Z_{1}^{(n)...
... \\
Z_{k}^{(1)} & \ldots & Z_{k}^{(n)}
\end{array}\right).
\end{displaymath}

Матрицу $Z^T$ - будем называть матрицей линейного преобразования (собственно она и вводится в предлагаемом статистическом пакете), вектор $\overrightarrow{\varepsilon}=(\varepsilon_1,...,\varepsilon_n)$ - будем называть вектором ошибок (случайных остатков). Сформулируем следующую теорему.
Теорема (Гаусс-Марков). Пусть матрица $Z$ имеет ранг $k$ и вектор ошибок $\overrightarrow{\varepsilon}$ - состоит из независимых гауссовских случайных величин с распределением $\Phi_{0,\sigma^2}$ с одной и той же дисперсией. Тогда ОМНК $\widehat{\beta}$, которая минимизирует функцию

\begin{displaymath}S(\overrightarrow{\beta})=(\overrightarrow{X}-Z^{T}\overrightarrow{\beta})^{T}(\overrightarrow{X}-Z^{T}\overrightarrow{\beta})\end{displaymath}

имеет вид:

\begin{displaymath}\widehat{\beta}=(ZZ^T)^{-1}Z\overrightarrow{X}.\end{displaymath}

Ковариационная матрица оценки $\widehat{\beta}$ вычисляется по формуле:

\begin{displaymath}{\rm Cov}(\widehat{\beta},\widehat{\beta}\vert Z)=\sigma^2_{\varepsilon}(ZZ^T)^{-1},\end{displaymath}

где $\sigma^2_{\varepsilon}=\frac{1}{n-k}(\overrightarrow{X}-Z^{T}\widehat{\beta})^{...
...w{X}-Z^{T}\widehat{\beta})=
\frac{1}{n-k}\sum_{i=1}^n \widehat{\varepsilon}_i^2$ - несмещенная оценка для дисперсии случайного остатка (через $\widehat{\varepsilon}_i$ мы обозначили $i$-ую компоненту вектора $\overrightarrow{X}-Z^{T}\widehat{\beta}$, компоненты этого вектора и являются оценками сл. остатков регрессии).

Обозначим $\widehat{X}=Z^{T}\widehat{\beta}$ - "иксы" , вычисленные по линейному уравнению регрессии. Введем в рассмотрение характеристики регрессии, которые будут вычисляться в пакете. Прежде всего отметим коэффициент детерминации

\begin{displaymath}R^2=\frac{\overline{(\widehat{X}-\overline{X})^2}}{\overline{(X-\overline{X})^2}},\end{displaymath}

коэффициент детерминации показывает, какую долю выборочной дисперсии "иксов" составляет выборочная дисперсия "иксов", вычисленных по уравнению регрессии, отметим, что чем ближе $R^2$ к единице, тем лучше регрессия аппроксимирует эмпирические данные. Далее среднеквадратической погрешностью или ошибкой уравнения регрессии называется

\begin{displaymath}\sqrt{\sum_{i=1}^n (X_i-\widehat{X}_i)^2/n}.\end{displaymath}

Особо отметим статистику Дарбина-Ватсона

\begin{displaymath}DW=\frac{\sum_{i=2}^n (\widehat{\varepsilon}_i-\widehat{\varepsilon}_{i-1})^2}{\sum_{i=1}^n \widehat{\varepsilon}_i^2}.\end{displaymath}

На основе этой статистики строится критерий для проверки предпосылки теоремы Гаусса-Маркова о некоррелированности случайных остатков в модели линейной регрессии, а именно, проверяется гипотеза

\begin{displaymath}H_1: {\rm Cov}(\varepsilon_i,\varepsilon_j)=0,~~j=i-1.\end{displaymath}

Сам критерий Дарбина-Ватсона здесь мы приводить не будем, скажем лишь то, что значения $DW$ близкие к двойке говорят в пользу принятия гипотезы $H_1$. Более подробно коснемся теста Голдфелда-Квандта. С помощью этого критерия проверяется предпосылка теоремы Гаусса-Маркова о совпадении дисперсий случайных остатков в модели линейной регрессии (в эконометрике говорят проверяется гомоскедастичность сл. остатков). В дальнейшем уравнения системы $\overrightarrow{X}=Z^{T}\overrightarrow{\beta}+\overrightarrow{\varepsilon}$ будем называть уравнениями наблюдений объекта. Итак, упорядочим уравнения наблюдений объекта по возрастанию суммы модулей значений факторов регрессии, т.е. по возрастанию значений

\begin{displaymath}Z_i=\sum_{j=1}^k \vert Z_j^{(i)}\vert.\end{displaymath}

По первым $\overline{n}$ упорядоченным уравнениям (где $\overline{n}$ удовлетворяет условиям

\begin{displaymath}k<\overline{n},~~~~\overline{n}=[n/3+0.5],\end{displaymath}

$k$ - количество оцениваемых параметров регрессии) вычисляем ОМНК $\widehat{\beta}_1$, затем находим

\begin{displaymath}ESS1=\sum_{i=1}^{\overline{n}}\widehat{\varepsilon}_i^2,\end{displaymath}

где, по-прежнему, $\widehat{\varepsilon}_i=X_i-\widehat{X}_i$. Аналогично по последним $\overline{n}$ упорядоченным уравнениям наблюдений вычисляем ОМНК $\widehat{\beta}_2$, затем также вычисляем $ESS2$. В итоге получаем статистику, которую назовем статистикой Голдфельда-Квандта

\begin{displaymath}CQ=\max(ESS1/ESS2,ESS2/ESS1).\end{displaymath}

Реально достигнутый уровень значимости критерия вычисляется по формуле

\begin{displaymath}1-F_{\overline{n}-k,\overline{n}-k}(CQ),\end{displaymath}

где $F_{k_1,k_2}$ - функция распределения Фишера с $k_1=k_2=\overline{n}-k$ степенями свободы.