Volodina-vasilisa.ru

Антикризисное мышление
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Множественный регрессионный анализ

Множественный регрессионный анализ

1) изучение взаимосвязи одной переменной («зависимой», результирующей) от нескольких других («независимых», исходных);

2) выявление среди «независимых» переменных наиболее существенных, важных для предсказания «зависимой», а также тех, которыми можно пренебречь, исключить в дальнейшем их из анализа.

Обычно множественный регрессионный анализ (МРА) применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между значениями метрической «зависимой» переменной Y и несколькими «независимыми» переменными X, измеренных у множества объектов (испытуемых), можно выразить линейным уравнением:

где Y — зависимая переменная; x1, x2, …. xр — независимые переменные; b, b1, b2, … bр — параметры модели; e — ошибка предсказания.

Требования к исходным данным:

1) Строгих указаний о соотношении количества испытуемых N и количества признаков m нет, но в некоторых источниках рекомендуется следующее соотношение N>m в 3 раза.

2) Признаки должны быть измерены по количественным шкалам (интервальной или пропорциональной) и иметь нормальное распределение.

3) Для анализа отбираются независимые переменные сильно коррелирующие с зависимой и слабо — друг с другом.

Дискриминантный анализ («классификация с обучением») предсказывает принадлежность объектов (испытуемых) к одному из известных классов (шкала наименований) по измеренным метрическим (дискриминантным) переменным. Дискриминантные переменные должны быть измерены в количественной шкале, зависимая переменная — в шкале наименований. Рекомендуется двукратное превышение числа испытуемых над числом переменных.

Требования к исходным данным:

1) В отношении количества признаков m строгих ограничений нет, но часто рекомендуется следующее соотношение количества испытуемых N и количества признаков m: N>m в 2 раза.

2) Признаки должны быть измерены по количественным шкалам ( интервальной или пропорциональной) и иметь нормальное распределение.

3) Между переменными должны отсутствовать линейные зависимости (коэффициенты корреляции, близкие к 1,00).

Кластерный анализ («классификация без обучения») по измеренным характеристикам у множества объектов (испытуемых) либо по данным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых находятся объекты, более похожие друг на друга, чем на объекты других групп.

Требования к исходным данным: Ограничений в использовании нет. Может применяться даже для признаков, измеренных по шкале наименований, лишь бы между ними возможно было определить сходство/различие.

Многомерное шкалирование выявляет шкалы как критерии, по которым поляризуются объекты при их субъективном попарном сравнении.

Факторный анализ направлен на выявление структуры переменных как совокупности факторов, каждый из которых — это скрытая, обобщающая причина взаимосвязи группы переменных. Надежные результаты получаются, если переменные измерены в количественной шкале. Число испытуемых должно превышать число переменных (или, по крайней мере, должно быть равно ему).

Требования к исходным данным:

1) Признаки должны быть измерены по количественным шкалам ( интервальной или пропорциональной) и иметь нормальное распределение. Включение в анализ порядковых или бинарных данных допустимо, но исследователь должен отдавать себе отчет в том, что искажения факторной структуры будут соответствовать искажениям коэффициентов корреляций и характер искажений неизвестен. В общем случае — желательно перейти к единой шкале для всех признаков (либо ранговой, либо бинарной), затем вычислять матрицу интеркорреляций, выбирая соответствующие меры взаимосвязи.

2) Соотношение количества признаков m и количества испытуемых N зависит от целей исследования.

А) Если цель анализа — уменьшение исходного количества переменных путем перехода к новым переменным-факторам, то строгих ограничений нет. Желательно лишь, чтобы N было не меньше m.

Б) Если исследователь хочет обнаружить и обосновать наличие факторов за взаимосвязями признаков, то N должно быть больше m не менее чем в 3 раза.

В) Если исследователь хочет обосновать существование выявленной факторной структуры для генеральной совокупности, то испытуемых N должно быть еще больше.

3) Недопустимы функциональные зависимости между признаками и не желательны корреляции, близкие к 1,00.

Возникновение и развитие факторного анализа тесно связано с измерени­ями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начи­ная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К на­стоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описа­нием изучаемых объектов, таких, как социология, экономика, биология, ме­дицина и другие.

Основная идея факторного анализа была сформулирована еще Ф. Гальтоном, ос­новоположником измерений индивидуальных различий. Она сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согла­сованно, то можно предположить существование одной общей причины этой со­вместной изменчивости — фактора как скрытой (латентной), непосредственно не доступной измерению переменной. При этом фактор является скрытой причиной согласованной изменчивости наблюдаемых переменных

Далее К. Пирсон в 1901 году выдвигает идею «метода главных осей», а Ч. Спирмен, отстаивая свою однофакторную концепцию интеллекта, разрабатывает математический аппарат для оценки этого фактора, ис­ходя из множества измерений способнос­тей. В своей работе, опубликованной в 1904 году, Ч. Спирмен показал, что если ряд признаков попарно коррелируют друг с другом, то может быть составлена система линей­ных уравнений, связывающих все эти при­знаки, один общий фактор «общей ода­ренности» и по одному специфическому фактору «специальных способностей» для каждой переменной. В 1930-х годах Л. Терстоун впервые предлагает «многофакторный анализ» для описания многочислен­ных измеренных способностей меньшим числом общих факторов интеллекта, яв­ляющихся линейной комбинацией этих исходных способностей.

С 1950-х годов, с появлением компьютеров, факторный анализ начинает очень широко использоваться в психологии при разработке тестов, обоснования струк­турных теорий интеллекта и личности. При этом исследователь начинает с множе­ства измеренных эмпирических показателей, которые при помощи факторного анализа группируются по факторам (изучаемым свойствам). Факторы получают интерпретацию по входящим в них переменным, затем отбираются наиболее «ве­сомые» показатели этих факторов, отсеиваются малозначимые переменные, вы­числяются значения факторов для испытуемых и сопоставляются с внешними эм­пирическими показателями изучаемых свойств.

В дальнейшем, по мере развития математического обеспечения факторного анали­за, накопления опыта его использования, прежде всего в психологии, задача фак­торного анализа обобщается. Как общенаучный метод, факторный анализ стано­вится средством для замены набора коррелирующих измерений существенно меньшим числом новых переменных (факторов). При этом основными требовани­ями являются: а) минимальная потеря информации, содержащейся в исходных дан­ных, и б) возможность представления (интерпретации) факторов через исходные переменные.

Таким образом, главная цель факторного анализа уменьшение размерно­сти исходных данных с целью их экономного описания при условии мини­мальных потерь исходной информации. Результатомфакторного анализа является переход от множества исходных переменных к существенно мень­шему числу новых переменных — факторов. Факторпри этом интерпретиру­ется как причина совместной изменчивости нескольких исходных перемен­ных.

Если исходить из предположения о том, что корреляции могут быть объ­яснены влиянием скрытых причин — факторов, то основное назначение фак­торного анализа — анализ корреляций множества признаков.

Рассмотрим результаты факторного анализа на простом примере. Предположим, исследователь измерил на выборке из 50 испытуемых 5 показателей интеллекта: счет в уме, продолжение числовых рядов, осведомленность, словарный запас, установ­ление сходства. Все показатели статистически значимо взаимосвязаны на уровне р

Читать еще:  Функционально структурный анализ системы является этапом

XI Международная студенческая научная конференция Студенческий научный форум — 2019

МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изучается влияние на объем выпуска продукции (у, млн. руб.) различных факторов: количества занятых (х1, чел.), стоимости основных фондов (х2, млн. руб.), средней заработной платы на предприятии (х3, тыс. руб.) (табл. 1, данные условные).

Таблица 1 – Показатели деятельности предприятий

Объем выпуска продукции, млн. руб.

Количество занятых, чел.

Стоимость основных фондов, млн. руб.

Средняя заработная плата на предприятии, тыс. руб.

1. На основе матрицы парных коэффициентов корреляции выполнить отбор факторов, включаемых в регрессию.

2. Построить линейное уравнение множественной регрессии и пояснить экономический смысл его параметров.

3. Определить множественный коэффициент корреляции.

4. С вероятностью 0,99 оценить статистическую значимость уравнения множественной регрессии с помощью F -критерия Фишера.

5. Оценить качество уравнения регрессии через среднюю ошибку аппроксимации.

1. Матрицу парных коэффициентов корреляции переменных определим, используя инструмент анализа данных Корреляция. Результаты вычислений представлены на рис. 2.

Рисунок 2 — Матрица коэффициентов парной корреляции

Все факторы оказывают заметное влияние на результат. Наибольшее влияние оказывает фактор х2, наименьшее – фактор х1, однако различия в тесноте связи невелики.

В модель регрессии должны быть включены факторы, тесно связанные с результатом и слабо связанные друг с другом. В данной задаче этим требованиям удовлетворяют две модели регрессии:

Выбор конкретной модели зависит от целей исследования. В данном примере вторая модель содержит независимые переменные, характеризующие один и тот же фактор производства – труд. Первая модель учитывает уже два фактора производства – труд и капитал.

Далее будем рассматривать модель зависимости объема выпуска продукции от количества занятых и стоимости основных фондов.

Рассчитаем параметры в MS Excel с помощью инструмента анализа данных Регрессия. В результате применения инструмента Регрессия будет получено несколько таблиц (рис. 3).

Столбец Коэффициентытретьей таблицы(рис. 2.11)содержит численные значения параметров регрессии:

При увеличении количества занятых на 1 чел. объем выпуска продукции увеличивается на 0,302 млн. руб. при неизменной стоимости основных фондов. При увеличении стоимости основных фондов на 1 млн. руб. объем выпуска продукции увеличивается на 2,157 млн. руб. при неизменном количестве занятых.

Рис. 3 — Результат применения инструмента Регрессия

3. Значение коэффициента множественной корреляции расположено в строке Множественный R таблицы Регрессионная статистика (рис. 3):

Линейная зависимость объема выпуска продукции от количества занятых и стоимости основных фондов тесная.

Множественный коэффициент детерминации (строка R -квадрат табл. Регрессионная статистика, рис. 3): . Вариация объема выпуска продукции на 80,2 % определяется вариацией учтенных в регрессии (1) факторов: количества занятых и стоимости основных фондов.

4. В таблице Дисперсионный анализ (рис. 3) представлены результаты многофакторного дисперсионного анализа. Столбец SS содержит суммы квадратов отклонений; столбец MS – дисперсии в расчете на одну степень свободы; столбец F – наблюдаемое значение F-критерия Фишера:

Критическое значение F -критерия найдем с помощью статистической функции F .ОБР(1-; k 1; k 2) при уровне значимости и степенях свободы и :

Так как F набл > F кр,с вероятностью 0,99 уравнение регрессии (2.17) признается статистически значимым и надежным.

5. Рассчитаем индивидуальные ошибки аппроксимации: , используя данные таблицыВывод остатка (рис. 3). Столбец Предсказанное у содержит расчетные (теоретические) значения результативного признака (объема выпуска продукции) ; столбец Остатки – значения остатков модели .

Множественная линейная регрессия. Улучшение модели регрессии

Понятие множественной линейной регрессии

Множественная линейная регрессия — выраженная в виде прямой зависимость среднего значения величины Y от двух или более других величин X 1 , X 2 , . X m . Величину Y принято называть зависимой или результирующей переменной, а величины X 1 , X 2 , . X m — независимыми или объясняющими переменными.

В случае множественной линейной регрессии зависимость результирующей переменной одновременно от нескольких объясняющих переменных описывает уравнение или модель

,

где — коэффициенты функции линейной регрессии генеральной совокупности,

— случайная ошибка.

Функция множественной линейной регрессии для выборки имеет следующий вид:

,

где — коэффициенты модели регрессии выборки,

— ошибка.

Уравнение множественной линейной регрессии и метод наименьших квадратов

Коэффициенты модели множественной линейной регресии, так же, как и для парной линейной регрессии, находят при помощи метода наименьших квадратов.

Разумеется, мы будем изучать построение модели множественной регрессии и её оценивание с использованием программных средств. Но на экзамене часто требуется привести формулы МНК-оценки (то есть оценки по методу наименьших квадратов) коэффициентов уравнения множественной линейной регрессии в скалярном и в матричном видах.

МНК-оценка коэффиентов уравнения множественной регрессии в скалярном виде

Метод наименьших квадратов позволяет найти такие значения коэффициентов, что сумма квадратов отклонений будет минимальной. Для нахождения коэффициентов решается система нормальных уравнений

Решение системы можно получить, например, методом Крамера:

.

Определитель системы записывается так:

МНК-оценка коэффиентов уравнения множественной регрессии в матричном виде

Данные наблюдений и коэффициенты уравнения множественной регрессии можно представить в виде следующих матриц:

Формула коэффициентов множественной линейной регрессии в матричном виде следующая:

,

где — матрица, транспонированная к матрице X,

— матрица, обратная к матрице .

Решая это уравнение, мы получим матрицу-столбец b, элементы которой и есть коэффициенты уравнения множественной линейной регрессии, для нахождения которых и был изобретён метод наименьших квадратов.

Построение наилучшей (наиболее качественной) модели множественной линейной регрессии

Пусть при обработке данных некоторой выборки в пакете программных средств STATISTICA получена первоначальная модель множественной линейной регрессии. Предстоит проанализировать полученную модель и в случае необходимости улучшить её.

Качество модели множественной линейной регрессии оценивается по тем же показателям качества, что и в случае модели парной линейной регрессии: коэффициент детерминации , F-статистика (статистика Фишера), сумма квадратов остатков RSS, стандартная ошибка регрессии (SEE). В случае множественной регрессии следует использовать также скорректированный коэффициент детерминации (adjusted ), который применяется при исключении или добавлении в модель наблюдений или переменных.

Важный показатель качества модели линейной регрессии — проверка на выполнение требований Гаусса-Маркова к остаткам. В качественной модели линейной регрессии выполняются все условия Гаусса-Маркова:

  • условие 1: математическое ожидание остатков равно нулю для всех наблюдений ( ε(e i ) = 0 );
  • условие 2: теоретическая дисперсия остатков постоянна (равна константе) для всех наблюдений ( σ²(e i ) = σ²(e i ), i = 1, . n );
  • условие 3: отсутствие систематической связи между остатками в любых двух наблюдениях;
  • условие 4: отсутствие зависимости между остатками и объясняющими (независимыми) переменными.

В случае выполнения требований Гаусса-Маркова оценка коэффициентов модели, полученная методом наименьших квадратов является

Затем необходимо провести анализ значимости отдельных переменных модели множественной линейной регрессии с помощью критерия Стьюдента.

В случае наличия резко выделяющихся наблюдений (выбросов) нужно последовательно по одному исключить их из модели и проанализировать наличие незначимых переменных в модели и, в случае необходимости исключить их из модели по одному.

Кроме того, требуется на основе тех же данных построить две нелинейные модели регрессии — с квадратами двух наиболее значимых переменных и с логарифмами тех же наиболее значимых переменных. Они также будут сравниваться с линейными моделями, полученных на разных шагах.

Читать еще:  Способы экономического анализа

Также требуется построить модели с применением пошаговых процедур включения (FORWARD STEPWISE) и исключения (BACKWARD STEPWISE).

Все полученные модели множественной регрессии нужно сравнить и выбрать из них наилучшую (наиболее качественную). Теперь разберём перечисленные выше шаги последовательно и на примере.

Оценка качества модели множественной линейной регрессии в целом

Пример. Задание 1. Получено следующее уравнение множественной линейной регрессии:

и следующие показатели качества описываемой этим уравнением модели:

Множественный регрессионный анализ;

Предназначен для изучения взаимосвязи одной переменной (зависимой, результирующей) и нескольких других переменных (независимых, исходных). Исходные данные для множественного регрессионного анализа представляют собой таблицу, строки которой соответствуют испытуемым, столбцы – переменным.

Все переменные должны быть измерены в количественной шкале. Допускается наличие «фиктивных» переменных, измеренных в дихотомической шкале. Одна из переменных определяется исследователем как зависимая, остальные (или часть их) как независимые. Допускается, что для некоторых объектов значения независимой переменной неизвестны, а их определение (оценка) может составлять важный результат анализа.

МРА может применяться как для решения прикладных задач, так и в исследовательских целях. Обычно МРА применяется для изучения возможности предсказания некоторого результата по ряду измеренных характеристик. При этом предполагается, что связь между одной зависимой переменной (Y) и несколькими независимыми переменными (X) можно выразить линейным уравнением: , где Y – зависимая переменная, х1, х2, …, хР – независимые переменные, b2, …, bР – параметры модели, е – ошибка предсказания.

Например:

МРА позволяет определить, какие показатели важны для предсказания, а какие можно исключить.

Если зависимая переменная Y является номинативной, то модель множественной регрессии неприменима, вместо нее может быть применен дискриминантный анализ, который решает те же задачи и позволяет получить сходные результаты.

МРА может применяться и в том случае, если переменная Y является причиной изменении нескольких переменных х1, х2, …, хР. Так, зависимой переменной может быть скрытая причина, фактор, например личностное свойство, а независимыми переменными — пункты теста, измеряющие различные проявления этого свойства. Таким образом, понятия «зависимая» и «независимая» переменные в МРА являются условными, а определение направления причинно-следственной связи выходит за рамки применения самого метода.

МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ МЕТОДА

Исходным положением линейного МРА является возможность представления значений «зависимой» переменной Y через значения «независимых» переменных х1, х2, …, хР в виде линейного уравнения: , где b — свободный член, b1, b2, …, bР коэффициенты регрессии, е — ошибка оценки. Коэффициенты регрессии вычисляются методом наименьших квадратов при решении системы из линейных уравнений, с минимизацией ошибки е.

После вычисления регрессионных коэффициентов по значениям независимых переменных для каждого из объектов могут быть вычислены оценки зависимой переменной Ŷ: .

Сопоставление значений зависимой переменной Y с их оценками Ŷ по выборке испытуемых, для которых значения Y известны, называется анализом остатков или ошибок. Он позволяет оценить возможные погрешности предсказания. Значения оценок Y могут быть вычислены и для испытуемых, истинные значения зависимой переменной для которых неизвестны.

Далее можно вычислить коэффициент корреляции Пирсона (R) между известными значениями «зависимой» переменной Y и ее оценками. Это один из способов получения коэффициента множественной корреляции (КМК) между «зависимой» и «независимыми» переменными. Коэффициент множественной корреляции —это мера линейной связи одной переменной с множеством других переменных; принимает положительные значения от 0 (отсутствие связи) до 1 (строгая прямая связь). КМК наряду с разностями между исходными и оцененными значениями «зависимой» переменной (ошибки е) — основные показатели качества модели множественной регрессии.

Кроме коэффициента множественной корреляции может быть вычислен коэффициент множественной детерминации(КМД), который равен коэффициенту множественной корреляции в квадрате или: КМД = R 2 . Он показывает ту часть дисперсии «зависимой» переменной, которая обусловлена влиянием «независимых» переменных.

Например:

Основной показатель МРА – коэффициент множественной корреляции (R), который, подобно парному коэффициенту корреляции Пирсона, является мерой линейной взаимосвязи одной переменной с совокупностью других переменных. КМК «зависимой» переменной с набором «независимых» переменных, как и КМД, принимает только положительные значения, изменяясь в пределах от 0 до 1. Статистическая значимость КМК определяется по критерию F-Фишера для соответствующих степеней свободы.

Таким образом, основными целями МРА являются:

1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель — коэффициент множественной корреляции (КМК) и его статистическая значимость по критерию F-Фишера.

2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели — регрессионные коэффициенты bi, их статистическая значимость по критерию t-Стьюдента.

3. Анализ точности предсказания и вероятных ошибок оценки «зависимой» переменной. Показатель — квадрат КМК, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятные ошибки предсказания анализируются по расхождению (разности) действительных значений «зависимой» переменной и оцененных при помощи модели МРА.

4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.

Множественная линейная регрессия

16.2 Множественная линейная регрессия

В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи в конце концов становится невозможно представить графически.

В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения

где n — количество независимых переменных, обозначенных как х1 и хn, а — некоторая константа.

Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.

В качестве примера рассмотрим стоматологическое обследование 1130 человек, в котором исследуется вопрос необходимости лечения зубного ряда, измеряемой при помощи так называемого показателя CPITN, в зависимости от набора различных переменных.

При этом зубной ряд был разделён на секстанты, для которых и происходило определение показателя CPITN. Этот показатель может принимать значения от 0 до 4, где 0 соответствует здоровому состоянию, а 4 наибольшей степени развития заболевания. Затем значения показателя CPITN для всех секстант были усреднены.

Файл zahn.sav содержит следующие переменные:

Переменные cpitn и alter принадлежат к интервальной шкале, а переменные s, pu и zb при более подробном рассмотрении можно отнести к порядковой (ранговой) шкале, так что они могут быть подвергнуты регрессионному анализу. Переменная g относится к номинальной шкале, но в то же время является дихотомической. Поэтому если при оценке результатов обратить внимание на полярность, то и эта переменная так же может быть вовлечена в регрессионный анализ. Однако, переменная beruf относится к номинальной шкале и имеет более двух (а именно четыре) категории. Поэтому, без дополнительной обработки ее нельзя применять в дальнейших расчётах.

В данном случае можно прибегнуть к специальному трюку: разложить переменную beruf на четыре, так называемых, фиктивных переменных, с кодировками отвечающими 0 (действительно) и 1 (ложно). В файл добавляются четыре новые переменные: beruf1beruf4, которые поочередно соответствуют четырём различным кодировкам переменной beruf. Так, к примеру, переменная beruf1 указывает на то, является ли данный респондент государственным служащим/работником (кодировка 1) или нет (кодировка 0).

Читать еще:  Принципы анализа управленческих решений

Выберите в меню Analyze. (Анализ) ► Regression. (Регрессия) ► Linear. (Линейная)

Поместите переменную cpitn в поле для зависимых переменных, объявите переменные: alter, beraf1, bеruf2, beruf3, beruf4, g, pu, s и zb независимыми.

Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных (Enter), установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной. Для множественного анализа следует выбрать один из пошаговых методов.

В списке Method имеются следующие возможности:

  • Enter — простейший способ — все данные формируются в единую группу.
  • Remove — это метод, который позволяет отбрасывать переменные в процессе определения конечной модели.
  • Stepwise — это метод, который позволяет добавлять и удалять отдельные переменные в соответствии с параметрами, установленными в окне Options.
  • Backward — данный метод позволяет последовательно удалять переменные из модели в соответствии с параметрами в окне Options, до того момента, пока это возможно (например по критерию значимости).
  • Forward — данный метод позволяет последовательно добавлять переменные в модель в соответствии с параметрами в окне Options, до того момента, пока это возможно.

При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение. При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым (в данном случае уровень значимости равен 0,1).

Наиболее распространенным является пошаговый метод, который устроен так же, как и прямой метод, однако после каждого шага переменные, используемые в данный момент, исследуются по обратному методу. При пошаговом методе могут задаваться блоки независимых переменных; в этом случае заданные блоки на одном шаге обрабатываются совместно.

Выберите пошаговый метод, но воздержитесь от блочной формы ввода данных, не задавайте больше ни каких дополнительных расчётов и начните вычисление нажатием ОК.

Model Summary (Сводная таблица модели)

a. Predictors: (Constant), Alter (Влияющие переменные: (константа), возраст).
b. Predictors: (Constant), Alter, Putzhaeufigkeit (Влияющие переменные: (константа), возраст, периодичность чистки).
c. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки).
d. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование).
е. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung, Arbeiter/Facharbeiter (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник).

Из первой таблице следует, что вовлечение переменных в расчет производилось за пять шагов, то есть переменные: возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник поочерёдно внедрялись в уравнение регрессии. Для каждого шага происходит вывод коэффициентов множественной регрессии, меры определённости, смещенной меры определённости и стандартной ошибки.

К указанным результатам пошагово присоединяются результаты расчёта дисперсии, которые здесь не приводятся. Также, пошаговым образом, производится вывод соответствующих коэффициентов регрессии и значимость их отличия от нуля.

Coefficients (Коэффициенты) a

а. Dереnаdеnt variable: Mittlerer CPITN-Wert (Зависимая переменная: усреднённое значение CPITN)

Вдобавок ко всему для каждого шага анализируются исключённые переменные. В вышеприведенной таблице в объяснениях нуждаются лишь коэффициенты ß. Это — регрессионные коэффициенты, стандартизованные соответствующей области значений, они указывают на важность независимых переменных, вовлечённых в регрессионное уравнение.

Уравнение регрессии для прогнозирования значения CPITN выглядит следующим образом:

cpitn = 0,032 • alter — 0.379 • рu + 0,229 • zb — 0,083 • s + 0,143 • benuf2 + 2,022

Для 40-летнего рабочего с неполным школьным образованием, который ежедневно чистит зубы один раз в день и меняет щётку раз в полгода, с учётом соответствующих кодировок, получается следующее уравнение:

cpitn = 0,032 • 40 — 0,379 • 2 + 0,229 • 3 — 0,083 • 2 + 0,143 • 1 + 2,022 = 3,208

При помощи соответствующих опций можно организовать вывод большого числа дополнительных статистических характеристик и графиков, на которых мы здесь останавливаться не будем. Можно также создать много дополнительных переменных и добавить их в исходный файл данных.

Важным шагом перед запуском процедуры построения регрессионной модели может быть пункт Collinearity Diagnostics в диалоговом окне Statistics. . Установление требования провести диагностику наличия коллинеарности между независимыми переменными позволяет избежать эффекта мультиколлинеарности, при котором несколько независимых переменных могут иметь настолько сильную корреляцию, что в регрессионной модели обозначают, в принципе, одно и то же (это неприемлемо).

Результат диагностики коллинеарности показан в таблице Coefficients в колонках Collinearity Statistics. Если величина значения VIF (Variance Inflation Factor) возле каждой независимой переменной меньше 10 — значит, эффекта мультиколлинеарности не наблюдается и регрессионная модель приемлема для дальнейшей интерпретации. Чем выше показатель VIF, тем более связаны между собой переменные. Если какая-либо переменная превышает значение в 10 VIF, следует пересчитать регрессию без этой независимой переменной.

Важным моментом является анализ остатков, то есть отклонений наблюдаемых значений от теоретически ожидаемых. Остатки должны появляться случайно (то есть не систематически) и подчиняться нормальному распределению. Это можно проверить, если с помощью кнопки Charts. (Диаграммы) построить гистограмму остатков. В приведенном примере наблюдается довольно хорошее согласование гистограммы остатков с нормальным распределением.

Рис. 16.14: Гистограмма остатков

Автокорреляция остатков модели регрессии

Проверка на наличие систематических связей между остатками соседних случаев , может быть произведена при помощи теста Дарбина-Ватсона (Durbin-Watson) на автокорреляцию остатков. Остатки должны быть случайными, однако при моделировании нередко встречается ситуация, когда остатки содержат тенденцию или циклические колебания. Это свидетельствует о том, что каждое следующее значение остатков зависит от предшествующих. В этом случае говорят об автокорреляции остатков модели регрессии. Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу. Иногда причину автокорреляции остатков следует искать в формулировке модели. В модель может быть не включен фактор, оказывающий существенное воздействие на результат, но влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Зачастую этим фактором является фактор времени t. Либо модель не учитывает несколько второстепенных факторов, совместное влияние которых на результат существенно ввиду совпадения тенденций их изменения или фаз циклических колебаний.

Тест Дарбина-Ватсона вычисляет коэффициент, лежащий в диапазоне от 0 до 4. Если значение этого коэффициента находится вблизи 2, то это означает, что автокорреляция отсутствует. Этот тест можно активировать через кнопку Statistics (Статистические характеристики). В данном примере тест дает удовлетворительное значение коэффициента, равное 1,776.

Ещё одной дополнительной возможностью является задание переменной отбора в диалоговом окне Linear Regression (Линейная регрессия). Здесь, с помощью кнопки Rule. (Правило) в диалоговом окне Linear Regression: Define Selection Rule (Линейная регрессия: ввод условия отбора), Вы получаете возможность при помощи избирательного признака сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.

Ссылка на основную публикацию
Adblock
detector