5.3. ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ
Рассмотрим
n-мерное
векторное
пространство
R
n
,
снабженное стандартным скалярным произведением: т.е. если
n
i
i
i
n
n
n
v
u
v
u
v
u
v
v
v
u
u
u
R
v
u
1
т
1
1
)
,
(
то
,
.
.
.
,
.
.
.
,
,
.
21
Пусть
n
n
n
e
L
Y
Y
y
X
X
x
.
.
.
1
.
.
.
1
,
.
.
.
,
.
.
.
1
1
1
,
ˆ
x
b
L
a
y
(5.30)
,
ˆy
y
e
(5.31)
где
y – вектор столбец размерности
n
фактических значений
отклика;
0
b
и
1
b
– числовые коэффициенты подлежащие определению
т.е
0
b
- свободный член и
1
b
-коэффициент регрессии;
x
– вектор размерности
n
, составленный из реальных
значений фактора;
L
– вектор размерности
n
, составленный из единиц;
yˆ
– вектор, лежащий в двумерной гиперплоскости π,
натянутой на векторы
L
и
x
. Мы предполагаем, что эти
векторы не коллинеарны.
Поставим задачу: найти такие
0
b
и
1
b
, чтобы вектор e имел
наименьшую длину. Другими словами, требуется наилучшим
образом аппроксимировать вектор y
вектором
yˆ
, лежащим в
гиперплоскости π .
Очевидно, что решением является такой вектор
yˆ
, для
которого вектор
e ортогонален (перпендикулярен) плоскости π. Для
этого необходимо и достаточно, чтобы вектор - решение был
ортогонален векторам
L
и
x
, порождающим плоскость π (рис. 5.3).
22
Рис. 5.3 Геометрическая интерпретация построения уравнения регрессии
.
0
0
)
,
(
0
0
0
)
,
(
1
1
1
n
i
i
i
n
i
i
n
i
i
i
e
x
e
x
e
e
L
e
L
(5.32)
Используя определение вектора e
, получаем следующие
соотношения
.
0
)
(
0
)
(
1
1
0
1
0
1
n
i
i
i
i
i
n
i
i
x
b
b
y
x
x
b
b
y
(5.33)
Раскрыв скобки в последней системе (5.33) получим
известные соотношения (5.12).
Также красивую и ясную геометрическую интерпретацию
имеет коэффициент детерминированности
2
R
. Рассмотрим
рис.5.4. Вектор
L
Y
является ортогональной проекцией вектора на
вектор
L
. Вектор
yˆ
- это ортогональная проекция вектора y на
двумерную гиперплоскость
π, натянутую на векторы
L
и
x
.
23
Рис. 5.4. Геометрическая интерпретация имеет коэффициент
детерминированности
2
R
По теореме о трех перпендикулярах ортогональная проекция
вектора
yˆ
на вектор
L
совпадает с
L
Y
. Рассмотрим прямоугольный
треугольник со сторонами
)
ˆ
(
L
Y
y
,
)
(
L
Y
y
и e
, для которого
справедлива
теорема Пифагора
.
2
2
2
e
Y
y
Y
y
L
(5.29)
Это
равенство
является
геометрическим
аналогом
соотношения (5.15) . Сопоставляя соотношения (5.15), (5.29) и
(5.16), получаем соотношение
2
2
2
общ
общ
ост
2
cos
1
L
регр
Y
y
Y
y
S
S
S
S
R
,
где φ
- угол между сторонами
)
ˆ
(
L
Y
y
и
)
(
L
Y
y
.
Таким
образом,
для
2
R
справедливо
следующее
соотношение
.
cos
2
2
R
5.4. МАТРИЧНАЯ ФОРМА ЗАПИСИ
Обозначим через X матрицу размерности n
x 2
24
,
b
b
,
.
.
.
,
1
.
.
.
.
.
.
1
1
0
1
1
B
y
y
y
x
x
X
n
n
B – вектор коэффициентов,
.
B
X
y
e
Условие ортогональности вектора e
к плоскости π
записывается как
0
0
т
e
X
.
Или
.
0
0
)
(
т
т
т
B
X
X
y
X
B
X
y
X
Последнее уравнение эквивалентно следующему уравнению
B
X
X
y
X
т
т
.
Это уравнение может быть без труда решено:
.
)
(
т
1
т
y
X
X
X
B
(5.30)
Это выражение в развернутом виде будет выглядеть
следующим образом:
.
1
1
1
1
2
1
1
n
i
i
i
n
i
i
n
i
i
n
i
i
n
i
i
y
x
x
x
x
x
n
B
(5.31)
Заметим, что (5.31) есть решение системы (5.12) с помощью
обратной матрицы.
5.5. СРЕДСТВО «РЕГРЕССИЯ» НАДСТРОЙКИ «ПАКЕТ
АНАЛИЗА» MS EXCEL
Средство «Регрессия» служит для построения линейного
уравнения
регрессии
и
вычисления
его
характеристик:
25
коэффициента регрессии и его значимости; значимости
коэффициентов уравнения и соответствующих доверительных
интервалов; теоретических (прогнозируемых) значений отклика и
соответствующих остатков, и их графиков и т.д. Для этого
необходимо заполнить диалоговое окно, приведенное на рис.5.5.
Результат работы представлен на рис.5.6.
Строки 182-186 содержат
результат
применения
дисперсионного анализа для оценки значимости
2
R
. Но вместо
крит
F
приведено значение «значимость
F»: если «значимость F»
меньше уровня значимости
, то
2
R
существенно отличен от 0.
Строки 188-190 содержат информацию о величине коэффициентов
регрессии, оценки их значимости и соответствующие доверительные
интервалы. При проверке значимости коэффициентов регрессии по
критерию Стьюдента в традиционном порядке вычисляем
набл
b
t
столбец «t-статистика», но вместо
крит
t
приведено «Р-значение»,
если это значение меньше уровня значимости
, то
соответствующий коэффициент существенно отличен от 0.
Рис. 5.5 Диалоговое окно средства «Регрессия» надстройки «Пакет
анализа» MS Excel
26
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
A
B
C
D
E
F
G
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный
R
0.977672616
R-квадрат
0.955843744
Нормированный
R-квадрат
0.950324212
Стандартная
ошибка
1.072506634
Наблюдения
10
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1 199.19784
199.1978362 173.1747791
1.05839E-06
Остаток
8 9.2021638
1.150270479
Итого
9
208.4
Коэффициент
ы
Стандар
тная
ошибка
t-статистика P-Значение Нижние 95%
Верхние 95%
Y-пересечение
4.528284389
1.1073323 4.089363669
0.003488661 1.974769925
7.081798854
X
2.774343122
0.2108229 13.15958887
1.05839E-06 2.288184252
3.260501992
ВЫВОД ОСТАТКА
Наблюдение
Предсказанное Остатки
1
11.46414219
0.5358578
2
14.23848532
-1.2384853
3
12.85131376
1.1486862
4
15.62565688
-0.6256569
5
18.4
-1.4
6
20.34204019
-0.3420402
7
20.6194745
0.3805255
8
21.17434312
1.8256569
9
23.94868624
0.0513138
10
25.33585781
-0.3358578
X График остатков
-2
-1
0
1
2
0
2
4
6
8
X
О
ста
тки
X График подбора
0
5
10
15
20
25
30
0
2
4
6
8
X
Y
Y
Предсказанное Y
Рис. 5.6 Результаты работы средства «Регрессия» надстройки «Пакет
анализа» MS Excel
ПРИМЕР
Имеются следующие данные по 10 фермерским хозяйствам области:
Таблица 5.3
Зависимость урожайности от внесенных удобрений
№ п/п
1 2 3 4 5 6 7 8 9 10
Урожайность
зерновых (ц/га)
15 12 17 21 25 20 24 14 23 13
Внесено
удобрений (кг/га)
4,0 2,5 5,0 5,8 7,5 5,7 7,0 3,0 6,0 3,5
27
Решение
Решение проведем с использованием MS Excel.
Создадим файл с исходными данными в среде MS Excel.
Исходные данные разместим в таблице следующей структуры
(рис.5.7):
-
Х (внесено удобрений, кг/га);
-
Y (урожайность зерновых, ц/га).
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A
B
C
D
E
F
G
H
I
J
№ п\п
Внесено
удобрений
на 1 га
посевов, кг
Урожайность
зерновых, ц\га
X
Y
X^2
(X-
Xср)^2
X*Y
Y^2
Y-Yср
(Y-Yср)^2 Yтеор
1
2,5
12
6,25
6,25
30
144
-6,4
40,96 11,46414
2
3,5
13
12,25
2,25
45,5
169
-5,4
29,16 14,23849
3
3
14
9
4
42
196
-4,4
19,36 12,85131
4
4
15
16
1
60
225
-3,4
11,56 15,62566
5
5
17
25
0
85
289
-1,4
1,96
18,4
6
5,7
20
32,49
0,49
114
400
1,6
2,56 20,34204
7
5,8
21
33,64
0,64
121,8
441
2,6
6,76 20,61947
8
6
23
36
1
138
529
4,6
21,16 21,17434
9
7
24
49
4
168
576
5,6
31,36 23,94869
10
7,5
25
56,25
6,25
187,5
625
6,6
43,56 25,33586
Сумма
50
184
275,88
25,88
991,8
3594 1,421E-14
208,4
184
Ср.знач.
5
18,4
27,588
2,588
99,18
359,4
Sполн
18,4
0
5
10
15
20
25
30
0
1
2
3
4
5
6
7
8
Внесено удобрений на 1 га
Уро
ж
ай
н
о
с
ть
, ц
/га
Рис. 5.7. MS Excel. Исходные данные и поле корреляции.
1. Значения описательных статистик по каждой переменной
найдем, используя надстройку Сервис - Пакет анализа
Описательная статистика (Рис. 5.8.).
X
Y
Среднее
5 Среднее
18.4
Стандартная ош ибка
0.536242 Стандартная ош ибка
1.521695
Медиана
5.35 Медиана
18.5
Мода
#Н/Д
Мода
#Н/Д
Стандартное отклонение
1.695746 Стандартное отклонение
4.812022
Дисперсия выборки
2.875556 Дисперсия выборки
23.15556
Эксцесс
-1.228995 Эксцесс
-1.7255
Асимметричность
-0.071777 Асимметричность
0.043976
Интервал
5 Интервал
13
Минимум
2.5 Минимум
12
Максимум
7.5 Максимум
25
Сумма
50 Сумма
184
Счет
10 Счет
10
Рис. 5.8. Вычисление описательных статистик в MS Excel.
28
Определим коэффициенты вариации переменных:
%.
26
%
100
4
.
18
81
.
4
%
100
%
34
%
100
5
70
.
1
%
100
X
v
Y
v
x
x
y
y
2. Построим поле корреляции моделируемого
Y
(Урожайность
зерновых) и факторного признака
X
(Внесено удобрений). Для
построения используем Мастер диаграмм – тип Точечная.
Рис. 5.9. Вычисление коэффициента корреляции и параметров уравнения
регрессии в MS Excel (режим отображения данных).
Как следует из рис. 5.7, с увеличением количества
внесенных удобрений на 1 га посевов урожайность зерновых растет
примерно линейно. Следовательно, для данной зависимости можно
попытаться построить линейное уравнение регрессии.
29
3. Найдем значение линейного коэффициента корреляции двумя
способами:
- непосредственно по определению, формула (5.1);
- используя встроенную функцию КОРЕЛЛ().
В обоих случаях получили значение коэффициента корреляции
0.977, что говорит о наличии существенной линейной
корреляции между признаками.
4. Определим параметры уравнения парной регрессии –
коэффициенты линейного уравнения и их ошибки (средние
квадратические погрешности) - тремя способами:
- непосредственно по определению (формулы 5
.
14 и 5.22);
- используя встроенную функцию ЛИНЕЙН();
- используя ЛИНИЮ ТРЕНДА.
Во всех случаях получим уравнение
53
.
4
77
.
2
X
Y
(рис.5.10), откуда следует, что каждый килограмм внесенного
удобрения увеличивает урожайность на 2.77 ц/га. Если
удобрения не вносить (Х=0) , то урожайность будет равна 4.53
ц/га.
Рис 5.10. Вычисление коэффициента корреляции и параметров уравнения
регрессии в MS Excel (режим отображения формул).
5. Вычислим коэффициент детерминации R
2
. Для этого
воспользуемся формулой (5.16). Все вычисления показаны на
рис.5.11 и 5.12.
Чтобы найти
общ
S
, воспользуемся найденным Y
ср
(ячейка С16) и
заполним столбец I.
30
Чтобы найти
общ
S
,
ост
S
и
регр
S
, необходимо знать
теоретические значения отклика
Yˆ
(Y
теор
).
Для каждого значения
фактор
X
по
полученному
уравнению
регрессии
53
.
4
77
.
2
ˆ
X
Y
вычислим
теоретические
значения
Yˆ
(столбец J). Найдем остатки - разность между исходными
значениями и вычисленными значениями отклика по уравнению
регрессии (столбец K).
Вычислим сумму квадратов остатков
ост
S
(столбец L) и
факт
S
(столбец M). Искомое
значение коэффициента детерминации
R
2
вычислено в ячейке H18, оно равно 0.9558.
Таким образом, 95.58% вариации Y объясняется вариацией
фактора X, или 95,6% вариации урожайности объясняется
вариацией
количества
внесенных удобрений, т.е. сила линейной
связи между количеством внесенных удобрений и урожайностью
весьма высокая.
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
A
B
C
D
E
F
G
H
№ п\п
Внесено
удобрений на
1 га посевов,
кг
Урожа
йность
зернов
ых,
ц\га
X
Y
X^2
(X-Xср)^2 X*Y
Y^2
Y-Yср
1
2,5
12
6,25
6,25
30
144
-6,4
2
3,5
13
12,25
2,25
45,5
169
-5,4
3
3
14
9
4
42
196
-4,4
4
4
15
16
1
60
225
-3,4
5
5
17
25
0
85
289
-1,4
6
5,7
20
32,49
0,49
114
400
1,6
7
5,8
21
33,64
0,64 121,8
441
2,6
8
6
23
36
1
138
529
4,6
9
7
24
49
4
168
576
5,6
10
7,5
25
56,25
6,25 187,5
625
6,6
Сумма
50
184 275,88
25,88 991,8
3594
0,0
Ср.знач.
5
18,4 27,588
99,18
359,4
Дисперс
2,588
20,84
Ст.откло
1,608726204 4,56508
R^2=1-Sост/Sполн=
0,955843744
Рис. 5.11а. Вычисление коэффициента детерминированности. Лист
MS Excel в режиме отображения данных (начало).
31
4
5
6
7
8
9
10
11
12
13
14
15
16
I
J
K
L
M
(Y-Yср)^2
Yтеор Y-Yтеор
(Y-Yтеор)^2 (Yтеор-Yср)^2
40,96 11,4641
0,5359
0,2871
48,1061
29,16 14,2385
-1,2385
1,5338
17,3182
19,36 12,8513
1,1487
1,3195
30,7879
11,56 15,6257
-0,6257
0,3914
7,6970
1,96
18,4
-1,4000
1,9600
0,0000
2,56
20,342
-0,3420
0,1170
3,7715
6,76 20,6195
0,3805
0,1448
4,9261
21,16 21,1743
1,8257
3,3330
7,6970
31,36 23,9487
0,0513
0,0026
30,7879
43,56 25,3359
-0,3359
0,1128
48,1061
208,4
184
0,0000
9,2022
199,1978
Sобщ
18,4
Sост
Sфакт
Рис. 5.11б. Вычисление коэффициента детерминированности. Лист
MS
Excel в режиме отображения данных (окончание).
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
A
B
C
D
E
F
X
Y
X^2
(X-Xср)^2
X*Y
1 2,5
12
=B5*B5
=(B5-$B$16)^2 =B5*C5
2 3,5
13
=B6*B6
=(B6-$B$16)^2 =B6*C6
3 3
14
=B7*B7
=(B7-$B$16)^2 =B7*C7
4 4
15
=B8*B8
=(B8-$B$16)^2 =B8*C8
5 5
17
=B9*B9
=(B9-$B$16)^2 =B9*C9
6 5,7
20
=B10*B10
=(B10-$B$16)^2 =B10*C10
7 5,8
21
=B11*B11
=(B11-$B$16)^2 =B11*C11
8 6
23
=B12*B12
=(B12-$B$16)^2 =B12*C12
9 7
24
=B13*B13
=(B13-$B$16)^2 =B13*C13
10 7,5
25
=B14*B14
=(B14-$B$16)^2 =B14*C14
Су=СУММ(B5:B14)
=СУМ =СУММ(D5:D14)
=СУММ(E5:E14) =СУММ(F5:F14)
Ср=СРЗНАЧ(B5:B14)
=СРЗН=СРЗНАЧ(D5:D14)
=СРЗНАЧ(F5:F14)
Ди=$D$16-$B$16*$B$16=$G$1
Ст =КОРЕНЬ(B17)
=КОРЕ
R^2=1-Sост/Sпо
Рис.5.12а. Вычисление коэффициента детерминированности.
Лист MS Excel в режиме отображения формул (начало).
32
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
G
H
I
J
K
L
M
Y^2
Y-Yср
(Y-
Yср)^2
Yтеор
Y-Yтеор
(Y-
Yтеор)^
(Yтеор-
Yср)^2
=C5*C5
=C5-$C$16
=H5*H5
=$B$23*B5+$B$24
=C5-J5
=K5*K5
=(J5-$C$16)^2
=C6*C6
=C6-$C$16
=H6*H6
=$B$23*B6+$B$24
=C6-J6
=K6*K6
=(J6-$C$16)^2
=C7*C7
=C7-$C$16
=H7*H7
=$B$23*B7+$B$24
=C7-J7
=K7*K7
=(J7-$C$16)^2
=C8*C8
=C8-$C$16
=H8*H8
=$B$23*B8+$B$24
=C8-J8
=K8*K8
=(J8-$C$16)^2
=C9*C9
=C9-$C$16
=H9*H9
=$B$23*B9+$B$24
=C9-J9
=K9*K9
=(J9-$C$16)^2
=C10*C10 =C10-$C$16 =H10*H10 =$B$23*B10+$B$24 =C10-J10 =K10*K10 =(J10-$C$16)^2
=C11*C11 =C11-$C$16 =H11*H11 =$B$23*B11+$B$24 =C11-J11 =K11*K11 =(J11-$C$16)^2
=C12*C12 =C12-$C$16 =H12*H12 =$B$23*B12+$B$24 =C12-J12 =K12*K12 =(J12-$C$16)^2
=C13*C13 =C13-$C$16 =H13*H13 =$B$23*B13+$B$24 =C13-J13 =K13*K13 =(J13-$C$16)^2
=C14*C14 =C14-$C$16 =H14*H14 =$B$23*B14+$B$24 =C14-J14 =K14*K14 =(J14-$C$16)^2
=СУММ(G5=СУММ(H5:H1=СУММ(I5: =СУММ(J5:J14)
=СУММ(K5=СУММ(L5=СУММ(M5:M14)
=СРЗНАЧ(G
Sполн
=СРЗНАЧ(J5:J14)
Sост
Sфакт
=1-L15/I15
Рис.5.12б. Вычисление коэффициента детерминированности.Лист
MS Excel в режиме отображения формул (окончание).
Вычисленные R
2
значения совпали. Заметим, что в процессе
решения значение
R
2
было вычислено по крайней мере дважды:
при использовании функции ЛИНЕЙН(), ячейка Е25;
при построении линии тренда.
6. Оценим статистическую значимость уравнения в целом,
используя критерий Фишера.
Нулевая гипотеза H
0
: уравнение регрессии не значимо,
коэффициент детерминации R
2
=0. Альтернативная гипотеза H
1
:
коэффициент детерминации
0
2
R
и уравнение в целом значимо.
76
.
251
80
.
0
98
.
201
ост
регр
набл
D
D
F
С помощью функции FРАСПОБР() для уровня значимости
0,05 находим F
крит
. Число степеней свободы для регрессионной
суммы равно 1, для остаточной суммы равно 8. Тогда F
крит
=
FРАСПОБР(0,05;1;8)=5.31 (рис. 5.13). Поскольку
набл
F
> F
крит
, то
гипотеза H
0
отвергается и принимается гипотеза Н
1
, т.е.
2
R
существенно отличен от нуля и уравнение в целом значимо.
7. Оценим статистическую значимость параметров уравнения
регрессии.
33
Значения стандартной ошибки
b
m
и
a
m
параметров
определим пользуясь формулами (5.22), все вычисления
реализованы на рис.5.9-5.10, ячейки А27 и А28. В результате
получили
1
b
m
=0.2108 и
0
b
m
=1.1073. Этот же результат получен как
результат работы функции ЛИНЕЙН() в ячейках E24 и F24 на тех
же рисунках .
29
30
31
32
33
34
35
36
37
38
A
B
C
D
E
F
G
H
I
J
H0: R^2 =0; альтернативная гипотеза H1 R^2 >0
Уровень значимости
0,05
df
Sрегр 199,1978362
1 Dфакт
199,19784 Fнабл=
173,17 >>
Fкрит=
5,3177
Sост
9,202163833
8 Dост
1,1502705
Sобщ
208,4
9
H0 отвергаем =>R^2 существенно отличен от 0
Рис. 5.13. Лист MS Excel. Проверка гипотезы о статистической значимости
уравнения регрессии.
Проведем оценку статистической значимости коэффициента
регрессии (
1
b
), используя критерий Стьюдента.
Выдвигаем нулевую гипотезу H
0
:
0
b
1
коэффициент
регрессии равен нулю. Альтернативная гипотеза - H
1
:
0
b
1
.
Вычисляем значение критерия
16
.
13
2108
.
0
7743
.
2
1
b
1
m
b
t
набл
.
Находим
крит
t
с помощью функции СТЬЮДРАСПОБР(),
для уровня значимости 0,05 и числа степеней свободы 8:
СТЬЮДРАСПОБР(0,05;8)=2,306.
крит
набл
t
t
, следовательно, принимаем альтернативную
гипотезу, т.е. коэффициент регрессии существенно отличен от нуля.
Статистическая значимость свободного члена
0
b
,
оценивается аналогично. Для этого выдвигаем нулевую гипотезу H
0
:
34
0
b
0
- свободный член равен нулю. Альтернативная гипотеза H
1
:
0
b
0
- свободный член неравен нулю.
Вычисляем значение t-критерия
0894
.
4
1073
/
1
5282
.
4
b
0
b
0
m
t
набл
.
Найденное выше
крит
t
=2,306 , сравниваем с
набл
t
, поскольку
крит
набл
t
t
, то принимаем альтернативную гипотезу о значимости
свободного члена уравнения регрессии.
Так как
0
a
,
1
a
и
2
R
существенно отличаются от нуля,
полученное уравнение линейной регрессии значимо с вероятностью
95% , как и параметры этого уравнения, и может быть использовано
для анализа и прогноза.
8. Определим доверительные интервалы для
0
a
и
1
a
по формуле
(5.24):
- для коэффициента регрессии
1
a
306
.
2
2108
.
0
774
.
2
a
306
.
2
2108
.
0
774
.
2
1
или
2605
.
3
a
2832
.
2
1
;
- для свободного члена
0
a
306
.
2
1073
.
1
5282
.
4
a
306
.
2
1073
.
1
5282
.
4
0
или
0818
.
7
a
9748
.
1
0
.
Поскольку с надежностью 95% доверительные интервалы
для коэффициентов
0
a
и
1
a
уравнения регрессии не содержат ноль,
то это подтверждает вывод об их статистической значимости.
9. Остатки - разность между исходными и найденными по
уравнению регрессии значениям уже вычислены и содержатся в
столбце K на рис.5.11 - 5.12.
35
Вычислим сумму значений остатков. Построим график
остатков (рис. 5.14).
Сумма значений остатков равна нулю, следовательно, первое
условие
Гаусса-Маркова
выполняется
(равенство
нулю
математического ожидания случайной компоненты). Из визуального
анализа графика можно сделать вывод, что тенденция остатков не
прослеживается, т.е. условие гомоскедастичности не нарушается.
Рис. 5.14. График остатков.
10. Построим интервальную оценку прогноза для ожидаемого
значения урожайности (рис.5.15- 5.16).
Среднее значение X=5 кг/га. Найдем прогноз урожайности
при увеличении среднего значения внесенных удобрений на 5%
размаха значения X , то есть для
05
.
0
min
max
X
X
X
X
k
или
25
.
5
05
.
0
)
5
.
2
5
.
7
(
5
k
X
.
Рис. 5.15. Вычисление интервальной оценки прогноза в MS Excel (режим
отображения данных).
36
132
133
134
135
136
137
138
A
B
C
D
Ср.зна
ч.X
Xcp=
=B16
кг/га
ПрогнозX
k=
=C132*5/100+C132
кг/га
ТочечноY
k
=
=B24+B23*C133
т/га
S
2
= Dост
=E33
Стандарm
y =
=КОРЕНЬ(C135)*КОРЕНЬ(1+1/A14+(C133-C132)^2/E15)
tкрит=С
=СТЬЮДРАСПОБР(0,05;C33)
Довери =$C$134-$C$137*$C$136 < y* <
=$C$134+
Рис. 5.16. Вычисление интервальной оценки прогноза в MS Excel (режим
отображения формул).
Точечный прогноз получим подстановкой значения X
в
уравнение регрессии:
094
,
19
5283
.
4
25
,
5
7743
,
2
Y
(ц/га).
Предельная ошибка прогноза, которая в 95% случаев не будет
превышена, вычисляется по соотношению (5.21) и составляет 1,126
ц/га. Интервальная оценка прогноза составит
16,49 ц/га
< Y <21,69 ц/га.
Таким образом, при увеличении среднего значения
внесенных удобрений на 5% размаха значения X, значение
урожайности с вероятностью 95% окажется в интервале
16,49 ц/га
< Y <21,69 ц/га.
11. Вычислим коэффициенты регрессии матричным методом
(используя формулу 5.28). Все расчеты приведены на рис.5.17-5.19.
149
150
151
152
159
160
161
163
164
165
166
167
168
169
A
B
C
D
E
F
G
H
I
J
K
Определение коэффициентов регрессии матричным методом
x
y
1
2,5
12
1
3,5
13
1
7
24
1
7,5
25
x
т
1
1
1
1
1
1
1
1
1
1
2,5
3,5
3
4
5
6
5,8
6
7
7,5
x
т
*х
(x
т
*х)^(-1)
x
т
*y
B=((x
т
*х)^(-1))*(x
т
*y)
10
50
1,066
-0,1932
184
4,528284 =a
50 275,9
-0,1932 0,03864
991,8
2,774343 =b
Рис. 5.17. Вычисление коэффициентов регрессии матричным методом в
MS Excel (режим отображения данных).
37
167
168
169
170
A
B
C
D
E
x
т
*х
(x
т
*х)^(-1)
=МУМНОЖ(A164:J165;A151:B160) =МУМНОЖ(A164:J165;A15
=МОБР(A168:B169) =МОБР(
=МУМНОЖ(A164:J165;A151:B160) =МУМНОЖ(A164:J165;A15
=МОБР(A168:B169) =МОБР(
Рис. 5.18. Вычисление коэффициентов регрессии матричным методом в
MS Excel (режим отображения формул - начало).
167
168
169
170
G
H
I
J
x
т
*y
B=((x
т
*х)^(-1))*(x
т
*y)
=МУМНОЖ(A164:J165;D151:D160)
=МУМНОЖ(D168:E169;G168:G169) =a
=МУМНОЖ(A164:J165;D151:D160)
=МУМНОЖ(D168:E169;G168:G169) =b
Рис. 5.19. Вычисление коэффициентов регрессии матричным методом в
MS Excel (режим отображения формул - окончание).
12. Вычисление характеристик линейного уравнения регрессии с
использованием средства «Регрессия» надстройки «Пакет
анализа» MS Excel, приведено на рис.5.5-5.6.
Все
характеристики
совпадают
со
значениями,
вычисленными вручную (по определению).
ЗАДАНИЕ. ПОСТРОЕНИЕ УРАВНЕНИЯ ПАРНОЙ
ЛИНЕЙНОЙ РЕГРЕССИИ
Дана таблица фактических данных из некоторой предметной
области: значения отклика (зависимого, результативного признака)
и соответствующие значения фактора (независимого признака).
Требуется:
1. Найти значения описательных статистик по каждому признаку и
пояснить их.
2. Построить поле корреляции моделируемого (результативного) и
факторного признаков.
3. Найти значение линейного коэффициента корреляции и пояснить
его смысл. Сделать выводы
.
4. Определить параметры уравнения парной линейной регрессии и
интерпретировать их. Объяснить смысл полученного уравнения
регрессии.
5. Для оценки качества уравнения вычислить коэффициент
детерминированности. Сделать вывод.
6. Оценить статистическую значимость уравнения в целом.
38
7. Оценить статистическую значимость коэффициента регрессии
1
a
, свободного члена
0
a
. Сделать выводы.
8. Для коэффициентов регрессии
1
a
и свободного члена
0
a
определить доверительные интервалы.
9. Построить и проанализировать график остатков.
10. Построить точечную и интервальную оценку для ожидаемого
значения отклика при значении фактора, равного среднему
значения фактора, увеличенному на 10% величины размаха
значений фактора. Размах значений фактора равен разности
между его максимальным и минимальным значениями.
11. Вычислить коэффициенты регрессии матричным методом
(используя формулу 5.31).
12. Вычислить характеристики линейного уравнения регрессии
используя средство «Регрессия» надстройки «Пакет анализа»
MS Excel.
ВАРИАНТЫ ЗАДАНИЙ
Исходные
данные
заданий
находятся
в
файле
«Econometric_LabRab_5.xls». Все листы рабочей книги MS Excel
имеют названия, отражающие предметную область, из которой
взяты данные.
Вариант 1
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
зависимость величины «Кредиты частным лицам» (Y) от величины
«Работающие активы» (X) .
Вариант 2
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
зависимость величины «Кредиты предприятиям и организациям»
(Y) от величины «Работающие активы» (X).
Вариант 3
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
39
зависимость величины «Облигации» (Y) от величины «Работающие
активы» (X).
Вариант 4
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
зависимость величины «Облигации» (Y) от величины «Кредиты
предприятиям и организациям» (X).
Вариант 5
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
зависимость величины «Облигации» (Y) от величины «Кредиты
частным лицам» (X).
Вариант 6
Лист с именем «Банки» содержит данные об экономических
результатах деятельности российских банков. Проанализируйте
зависимость величины «Кредиты предприятиям и организациям»
(Y) от величины «Кредиты частным лицам» (X).
Вариант 7
Лист с именем «Регионы» содержит данные об
экономических результатах деятельности российских регионов.
Проанализируйте
зависимость
величины
«Кредиты,
предоставленные
предприятиям,
организациям,
банкам
и
физическим лицам» (Y) от величины «Среднедушевые денежные
доходы в месяц» (X).
Вариант 8
Лист с именем «Регионы» содержит данные об
экономических результатах деятельности российских регионов.
Проанализируйте
зависимость
величины
«Число
малых
предприятий» (Y) от величины «Кредиты, предоставленные
предприятиям, организациям, банкам и физическим лицам» (X).
Вариант 9
Лист с именем «Регионы» содержит данные об
экономических результатах деятельности российских регионов.
Проанализируйте
зависимость
величины
«Среднедушевые
40
денежные доходы в месяц» (Y) от величины «Основные фонды в
экономике» (X).
Вариант 10
Лист с именем «Регионы2» содержит данные «Кредитные
вложения банков и показатели результатов экономической
деятельности отдельных отраслей экономики. Проанализируйте
зависимость величины «Оборот розничной торговли» (Y) от
величины
«Кредиты,
предоставленные
предприятиям,
организациям, банкам и физическим лицам» (X).
Вариант 11
Лист с именем «Регионы2» содержит данные «Кредитные
вложения банков и показатели результатов экономической
деятельности отдельных отраслей экономики. Проанализируйте
зависимость величины «Ввод в действие общей площади жилых
домов» (Y) от величины «Кредиты, предоставленные предприятиям,
организациям, банкам и физическим лицам» (X).
Вариант 12
Лист с именем «Мустанг» содержит данные о ценах и
возрасте автомобилей «Мустанг». Проанализируйте связь между
ценой (Y) и возрастом автомобиля (X).
Вариант 13
Лист с именем «Буз» содержит данные об общих активах и
чистом доходе 45 наиболее крупных банков США. Проанализируйте
связь между общими активами (Y) и чистым доходом (X).
Вариант 14
Лист с именем «Мучные» содержит данные о 10 мучных
изделиях. Проанализируйте зависимость калорийности (Y) от
содержания углеводов (X).
Вариант 15
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
41
процентными долями возврата (ВСЕГО90) (Y) и процентным
увеличением дохода (АКТИВЫ90) (X) за 1990 год.
Вариант 16
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
процентными долями возврата (ВСЕГО91) (Y) и процентным
увеличением (АКТИВЫ91) (X) дохода за 1991 год.
Вариант 17
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
процентными долями возврата (ВСЕГО90) (Y) и процентной долей
капитальной прибыли (КАППРИБЫЛЬ90) (X) за 1990 год.
Вариант 18
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
процентными долями возврата (ВСЕГО91) (Y) и процентной долей
капитальной прибыли (КАППРИБЫЛЬ91) (X) за 1991 год.
Вариант 19
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
процентными долями возврата (ВСЕГО91) (Y) и процентной долей
капитальной прибыли (КАППРИБЫЛЬ91) (X) за 1991 год.
Вариант 20
Лист с именем «Фонды» содержит данные за 1990 и 1991
годы для 33 взаимных фондов. Проанализируйте связь между
процентным увеличением активов (АКТИВЫ90) (Y) и процентной
долей капитальной прибыли (КАППРИБЫЛЬ90) (X)за 1990 год.
Вариант 21
Лист с именем «Фонды» содержит данные за 1990 и 1991 для
33 взаимных фондов. Проанализируйте связь между процентным
увеличением активов (АКТИВЫ91) (Y) и процентной долей
капитальной прибыли (КАППРИБЫЛЬ91) (X)за 1991 год.
42
Вариант 22
Лист с именем «ПреподЗатраты» содержит данные о
заработной плате учителей и затратах в общественных школах в
пересчете на одного ученика. Проанализируйте связь между
заработной платой учителей (Y) и затратами на одного ученика (X).
Вариант 23
Лист с именем «ДомаНалоги» содержит данные о площади
домов, ценах на них, налогах с недвижимого имущества в
Альбукерке, штат Нью-Мексико. Проанализируйте связь между
площадью домов (Y) и ценами (X) на них.
Вариант 24
Лист с именем «ДомаНалоги» содержит данные о площади
домов, ценах на них, налогах с недвижимого имущества в
Альбукерке, штат Нью-Мексико. Проанализируйте связь между
ценами домов (Y) и налогами (X).
Вариант 25
Лист с именем «ДомаНалоги» содержит данные о площади
домов, ценах на них, налогах с недвижимого имущества в
Альбукерке, штат Нью-Мексико. Проанализируйте связь между
площадью домов (Y) и налогами (X).
43
РЕКОМЕНДАТЕЛЬНЫЙ БИБЛИОГРАФИЧЕСКИЙ
СПИСОК
1. Эконометрика: учебно-методический комплекс / сост. М. Б.
Шабаева – СПб.: Изд-во CЗТУ, 2008. – 159 с.
2. Арженовский С.В. Эконометрика: Учебное пособие /
С.В.Арженовский, О.Н.Федосова; Рос. гос. экон. унив. Ростов
н/Д., 2002. 102с.
3. Магнус Я.Р. Эконометрика. Начальный курс./ Я.Р.Магнус,
П.К.Катышев, А.А.Пересецкий; М.: Дело, 2000. 400 с.
4. Эконометрика./Учебник, Елисеева И.И Курышева С.В. и др.;
Под ред. Елисеевой И.И.– 2-е изд. перабот. и доп. М.: Финансы и
статистика, 2005. 576с.
5. Практикум по эконометрике / Под ред. Елисеевой И.И. М.:
Финансы и статистика, 2001. 192 с.
6. Бер К. Анализ данных с помощью Microsoft Excel./ К.Бер,
П.Кейри. М.:Вильямс, 2004. 560 с.
СОДЕРЖАНИЕ
Введение ................................................................................................... 3
5.1. Теоретические сведения .................................................................. 4
5.1.1. Основы теории корреляции .......................................................... 4
5.1.2. Основы регрессионного анализа .................................................. 5
5.2. Оценка качества построенной модели ......................................... 12
5.3. Геометрическая интерпретация .................................................... 20
5.4. Матричная форма записи ............................................................... 23
5.5. Средство «Регрессия» надстройки «Пакет анализа» MS Excel .. 24
Пример .................................................................................................... 26
Варианты заданий ................................................................................. 38
Рекомендательный библиографический список ................................. 43
ЭКОНОМЕТРИКА
ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
Методические указания к лабораторным работам
для студентов бакалавриата направлений
21.03.02, 38.03.01
Составители: В.В. Беляев, Т.Р. Косовцева
Печатается с оригинал-макета, подготовленного кафедрой
информатики и компьютерных технологий
Ответственный за выпуск Т.Р. Косовцева
Лицензия ИД № 06517 от 09.01.2002
Подписано к печати 24.05.2017. Формат 60
84/16.
Усл. печ. л. 2,5. Усл.кр.-отт. 2,5. Уч.-изд.л. 2,0. Тираж 100 экз. Заказ 467. С 135.
Санкт-Петербургский горный университет
РИЦ Санкт-Петербургского горного университета
Адрес университета и РИЦ: 199106 Санкт-Петербург, 21-я линия, 2
Document Outline - 2017 - 78
- 2017-78 МетодУказан__ПарнаяЛинейнаяРегрессия__ЭКОНОМЕТРИКА_2017_в2
Dostları ilə paylaş: |