,
0
1
b
y b x
. (5.14)
где
2
x
S
– выборочная дисперсия переменной x:
12
2
2
2
2
1
1
n
x
i
i
S
x
x
x
x
n
,
cov ,
x y – выборочная ковариация.
5.2. ОЦЕНКА КАЧЕСТВА ПОСТРОЕННОЙ МОДЕЛИ
Качество построенной модели
x
b
b
y
1
0
ˆ
в целом
оценивается
коэффициентом
детерминации
(детерминированности).
Рассмотрим следующую величину:
n
i
i
y
y
S
1
2
общ
)
(
-
общую сумму квадратов отклонений значений
i
Y
от среднего
арифметического значения отклика Y. Для линейной регрессии
можно доказать следующее равенство:
.
)
(
)
(
)
(
1
2
1
2
1
2
n
i
i
n
i
i
i
n
i
i
y
y
y
y
y
y
(5.15)
Первое
слагаемое
называется
остаточной
суммой
квадратов отклонений
n
i
i
i
ост
y
y
S
1
2
)
(
и характеризует
суммарное отклонение наблюдаемых (эмпирических) данных от
теоретических значений, найденных по уравнению регрессии.
Заметим, что
ост
S
совпадает с суммой, определяемой соотношением
(5.6).
Второе
слагаемое
n
i
i
регр
y
y
S
1
2
)
(
называется
регрессионной или факторной суммой квадратов отклонений и
характеризует разброс теоретических значений относительно
среднего арифметического значения наблюдаемого значения
(отклика). Коэффициент детерминированности (детерминации)
определяется по формуле:
общ
ост
S
S
R
1
2
.
(5.16)
13
Поскольку
общ
ост
S
S
, то
2
R
может изменяться в пределах
от 0 до 1. Чем меньше остаточная сумма квадратов по сравнению с
общей суммой квадратов, тем больше значение коэффициента
детерминированности. Он показывает, насколько хорошо уравнение,
полученное с помощью регрессионного анализа, объясняет
взаимосвязи между переменными.
Коэффициент детерминированности
2
R
может быть
преобразован к следующему виду:
.
1
общ
общ
общ
общ
общ
2
n
S
n
S
S
S
S
S
S
S
S
R
регр
регр
ост
ост
Таким образом, коэффициент детерминированности
2
R
равен доле вариации Y, объясняемой вариацией фактора X.
Можно доказать, что в случае линейной зависимости двух
переменных коэффициент детерминированности равен квадрату
коэффициента корреляции (
2
2
xy
r
R
).
Коэффициент детерминированности служит показателем
тесноты связи между фактором и откликом.
Иногда показателям тесноты связи можно дать качественную
оценку (шкала Чеддока) (табл.5.1).
Таблица 5.1
Количественная мера
тесноты связи
Качественная
характеристика силы связи
0,1-0,3
Слабая
0,3-0,5
Умеренная
0,5-0,7
Заметная
0,7-0,9
Высокая
0,9-0,99
Весьма высокая
Для обоснованного применения уравнения регрессии
необходимо оценить полученные характеристики уравнения
регрессии.
14
Большое значение имеет установление статистической
значимости коэффициента детерминированности и параметров
полученного уравнения, то есть оценка вероятности того, что
данные величины не примут нулевые значения.
Проверка значимости уравнения в целом, то есть гипотезы о
наличии линейной зависимости между
y
и
x
, проводится с
помощью критерия Фишера. Проверка значимости уравнения в
целом предполагает проверку нулевой гипотезы об отсутствии
линейной связи между
y
и
x
, то есть
0
:
2
0
R
H
, альтернативная
гипотеза
0
:
2
1
R
H
, то есть
2
R
существенно отличен от нуля и
уравнение значимо. Если нулевая гипотеза справедлива, то
ост
S
мало отличается от
факт
S
. Для отклонения нулевой гипотезы
0
H
необходимо,
чтобы
регрессионная
(факторная)
дисперсия
превышала остаточную в несколько раз. Схема проверки гипотезы
совпадает с общей схемой проведения дисперсионного анализа
(табл. 5.2).
Для линейного уравнения регрессии справедливо выражение
ост
регр
регр
ост
ост
ост
S
S
S
S
S
S
S
R
1
1
1
1
1
общ
2
.
Отсюда следует, что чем больше отношение
ост
регр
S
S
, тем
ближе значение коэффициента детерминированности к единице.
Это утверждение справедливо и для нелинейной регрессии.
Приведем
ост
S
и
регр
S
к сравнимому виду. Существует
соотношение между числом степеней свободы
df
(числом свободы
независимого варьирования признака) для общей, регрессионной и
остаточной сумм квадратов:
регр
ост
общ
df
df
df
.
Для парной линейной регрессии:
15
2
;
1
;
1
n
df
df
n
df
ост
регр
общ
,
где
n
- число единиц совокупности. Разделим каждую сумму
квадратов на соответствующее ей число степеней свободы. Получим
средний квадрат отклонений, или, что то же самое, дисперсию на
одну степень свободы
.
D
Таблица 5.2.
Схема проведения дисперсионного анализа
Источники
вариации:
Вариация,
объясненная за счет
регрессии
Остаточная
вариация
Общая вариация
Чи
сло
степен
ей
свободы
регр
df
ост
df
общ
df
Сумма
квадратов
отклонений
n
i
i
регр
y
y
S
1
2
)
(
n
i
i
i
ост
y
y
S
1
2
)
(
n
i
i
y
y
S
1
2
общ
)
(
Дисперсия
на
одну
степень
свободы
регр
регр
регр
df
S
D
ост
ост
ост
df
S
D
общ
общ
общ
df
S
D
Фак
тич
еское
знач
ение
критерия
Фи
шер
а
ост
регр
набл
D
D
F
Табличное
знач
ение
критерия
Фи
шер
а
крит
F
16
;
1
1
2
общ
n
y
y
df
S
D
n
i
i
общ
общ
(5.17)
;
1
)
(
1
2
n
i
i
регр
регр
регр
y
y
df
S
D
(5.18)
1
1
)
(
1
2
ост
n
y
y
df
S
D
n
i
i
i
ост
ост
.
(5.19)
Критерий Фишера определяется следующим соотношением:
.
ост
D
D
F
регр
набл
(5.20)
Использование критерия Фишера предполагает вычисление
набл
F
и его сравнение с табличным значением
крит
F
, которое
зависит от уровня значимости
и числа степеней свободы для
факторной и остаточной сумм.
крит
F
определяется либо с
помощью таблиц, либо с использованием специализированных
пакетов программ, например, в MS Excel для этого может быть
использована функция FРАСПРОБР().
Если
крит
набл
F
F
, нулевая гипотеза
0
H
об отсутствии связи
признаков отклоняется и делается вывод о справедливости гипотезы
1
H
(о существенности этой связи, значимости уравнения
регрессии).
Если же величина
набл
F
окажется меньше табличной, то есть
крит
набл
F
F
, то вероятность нулевой гипотезы
0
H
выше заданного
уровня значимости и гипотеза
0
H
не может быть отклонена без
серьезного риска сделать неправильный вывод о наличии линейной
17
связи между
y
и
x
. При этом уравнение регрессии считается
статистически незначимым, линейной связи между
y
и
x
нет.
Критерий Фишера может быть вычислен как по формуле
(5.15), так и через коэффициент детерминированности по формуле:
,
1
2
1
2
2
n
R
R
F
набл
(5.21)
где
2
R
- коэффициент детерминированности;
n
- число
наблюдений;
m
=1 для линейного уравнении парной регрессии.
П р о в е р к а з н а ч и м о с т и п а р а м е т р о в у р а в н е н и я
р е г р е с с и и - коэффициентов уравнения регрессии
0
a
и
1
a
проводится с помощью критерия Стьюдента.
С этой целью для каждого из параметров определяется
стандартная ошибка (средняя квадратическая погрешность):
,
2
ˆ
1
2
1
2
1
2
1
2
2
b
0
n
i
i
n
i
i
ост
n
i
i
n
i
i
i
i
x
x
n
x
D
x
x
n
x
n
y
y
m
.
2
/
ˆ
1
2
1
2
2
b
1
n
i
i
ост
n
i
i
i
i
x
x
D
x
x
n
y
y
m
(5.22)
Статистики:
r
r
b
m
r
t
m
b
t
m
b
t
,
,
0
0
1
1
b
0
b
b
1
,
(5.23)
имеют
t
- распределение Стьюдента. Для заданного уровня
значимости
и соответствующего числа степеней свободы
доверительные интервалы для параметров уравнения регрессии
0
a
и
1
a
определяются по формулам:
1
b
1
b
m
t
крит
;
0
b
0
b
m
t
крит
,
(5.24)
18
где
крит
t
- табличное значение для заданного числа степеней
свободы и уровня значимости.
Значение
крит
t
можно получить с помощью функции
MS Excel СТЬЮДРАСПОБР().
Выдвигается нулевая гипотеза
0
H
о незначимом отличии
коэффициента регрессии
1
b
в уравнении регрессии от нуля. По
формулам (5.18) с учетом равенств (5.17) вычислим
1
1
b
1
b
b
m
t
набл
.
Если вычисленное значение будет меньше критического,
найденного для заданного уровня значимости и соответствующего
числа степей свободы, то есть
крит
набл
t
t
1
b
, то гипотеза о равенстве
нулю коэффициента регрессии подтверждается.
Аналогично проверяется значимость свободного члена
0
b
в
уравнении (5.4) и коэффициента корреляции.
Рассмотрим применение уравнения регрессии для прогноза.
В прогнозных расчетах предсказываемое значение
y
определяется
как точечный прогноз
yˆ
путем подстановки в уравнение регрессии
x
b
b
y
1
0
ˆ
значения
прогноз
x
x
. Однако, результат точечного
прогноза маловероятен. Поэтому находят интервальную оценку
прогноза:
y
крит
y
крит
m
t
y
x
a
a
m
t
y
ˆ
1
0
ˆ
ˆ
ˆ
,
(5.25)
где
y
m
ˆ
- стандартная ошибка
yˆ
:
2
2
ˆ
1
1
x
x
x
x
n
D
m
прогноз
ост
y
.
(5.26)
Рассмотренная
формула
стандартной
ошибки
предсказываемого среднего значения
yˆ
при заданном значении
x
x
прогноз
характеризует ошибку положения линии регрессии. Чем
19
больше разность между
прогноз
x
и
x
, тем больше величина
y
m
ˆ
, это
влечет увеличение доверительного интервала (рис.5.2.) На этом
рисунке показано, что минимальная ширина доверительного
интервала соответствует случаю, когда
прогноз
x
и
x
совпадают. По
мере удаления
прогноз
x
от
x
на величины
1
x
и
2
x
ширина
соответствующих доверительных интервалов увеличивается.
Рис. 5.2. Доверительный интервал линии регрессии: U – верхняя
граница; L – нижняя граница доверительного интервала; Δ
0
, Δ
1
,и Δ
2
доверительные интервалы для прогнозных значений равны
x
,
1
x
x
и
2
x
x
соответственно.
Другой оценкой качества уравнения регрессии является
средняя ошибка аппроксимации - среднее относительное отклонение
теоретических значений от фактических, которая определяется по
формуле:
20
%
100
1
1
n
i
i
i
i
y
y
y
n
A
.
(5.27)
Модель считается пригодной для прогноза, если величина
A
не превышает 8%-10%.
Для модели, описываемой уравнением (5.5) можно
вычислить
коэффициент
эластичности.
Коэффициент
эластичности показывает, на сколько процентов изменится в
среднем результат, если фактор изменится на 1 %, и вычисляется по
формуле:
y
x
x
f
Э
,
(5.28)
где
x
f
- первая производная, характеризующая соотношение
приростов результата и фактора для соответствующей формы связи.
Для линейной модели
.
1
0
1
x
b
b
x
b
Э
(5.29)
Dostları ilə paylaş: |