Volodina-vasilisa.ru

Антикризисное мышление
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Проанализировать матрицу межфакторных корреляций

Определитель матрицы межфакторной корреляции

Где

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или, что то же самое, совокупного коэффициента корреляции.

При правильном включении факторов в регрессионную модель величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иначе, оценивает тесноту совместного влияния факторов на результат.

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – показателя детерминации.

И показатели качества регрессии

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

, (2.12)

где – общая дисперсия результативного признака; – остаточная дисперсия.

Границы изменения индекса множественной корреляции от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:

. (2.13)

Можно пользоваться следующей формулой индекса множественной детерминации:

. (2.14)

При линейной зависимости признаков формула индекса множественной корреляции может быть представлена следующим выражением:

, (2.15)

где – стандартизованные коэффициенты регрессии; – парные коэффициенты корреляции результата с каждым фактором.

Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции:

, (2.16)

– определитель матрицы парных коэффициентов корреляции;

Определитель матрицы межфакторной корреляции;

Где

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или, что то же самое, совокупного коэффициента корреляции.

При правильном включении факторов в регрессионную модель величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иначе, оценивает тесноту совместного влияния факторов на результат.

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – показателя детерминации.

И показатели качества регрессии

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

, (2.12)

где – общая дисперсия результативного признака; – остаточная дисперсия.

Границы изменения индекса множественной корреляции от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:

. (2.13)

Можно пользоваться следующей формулой индекса множественной детерминации:

. (2.14)

При линейной зависимости признаков формула индекса множественной корреляции может быть представлена следующим выражением:

, (2.15)

где – стандартизованные коэффициенты регрессии; – парные коэффициенты корреляции результата с каждым фактором.

Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции:

, (2.16)

– определитель матрицы парных коэффициентов корреляции;

АНАЛИЗ КОРРЕЛЯЦИОННЫХ МАТРИЦ

Корреляционная матрица.Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен­ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово­дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица(Соrrеlаtiоп Маtriх> — это результат вычисления корреляций одного типа для каждой пары из множества P переменных, изме­ренных в количественной шкале на одной выборке.

Предположим, изучаются связи между 5 переменными (v1, v2. v5; Р= 5), изме­ренными на выборке численностью N=30 человек. Ниже приведена таблица ис­ходных данных и корреляционная матрица.

Нетрудно заметить, что корреляционная матрица является квадратной, симметрич­ной относительно главной диагонали (так как rij= rji), с единицами на главной диа­гонали (так как rii=rjj= 1).

Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагона­ли, так как корреляция х с у равна корреляции у с х На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляцион­ной матрицы, а те, которые находятся выше или ниже главной диагонали.

Количество коэффициентов корреляции, подлежащих анализу при изучении, связей Рпризнаков определяется формулой: Р(Р- 1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 — 1)/2 = 10.

Основная задача анализа корреляционной матрицы — выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд — графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10—15). Другой спо­соб —применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы. »). Применяя факторный или кластерный анализ, можно выделить группиров­ки переменных, которые теснее связаны друг с другом, чем с другими пере­менными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.

Читать еще:  Анализ факторов внутренней среды предприятия

Сравнение корреляций — дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), при­меняется метод сравнения для зависимых выборок. При сравне­нии одноименных корреляций, вычисленных для разных выборок, применя­ется метод сравнения для независимых выборок.

Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корре­ляционных матриц, полученных для разных выборок (на предмет их одно­родности), являются трудоемкими и выходят за рамки данной книги. Позна­комиться с этими методами можно по книге Г. В. Суходольского.

Проблема статистической значимости корреляций.Проблема заключается в том, что процедура статистической проверки гипотезы предполагает одно­кратное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто слу­чайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы k раз в отношении разных переменных или выборок, то при уста­новленной величине α мы гарантированно получим подтверждение гипоте­зы в αхk числе случаев.

Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15—1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень α = 0,05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо оттого, существует л и связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие — отражают ре­альную связь?

Строго говоря, для принятия статистического решения необходимо умень­шить уровень, а во столько раз, сколько гипотез проверяется, Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффициентов корреляций?

Можно указать лишь один действительно убедительный способ решений этой проблемы; разделить выборку случайным образом на две части и прини­мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много­мерных методов (факторного, кластерного или множественного регрессион­ного анализа) — для выделения и последующей интерпретации групп статис­тически значимо связанных переменных.

Проблема пропущенных значений. Если в данных есть пропущенные значе­ния, то возможны два варианта расчета корреляционной матрицы: а) построч­ное удаление значений (Ехсludе саsеs listwise); б) попарное удаление значений (Ехсludе саsеs pairwise). При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра­вильной» корреляционной матрице в том смысле, что все коэффициенты вы­числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метол может привести ктому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу­щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет­ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным подмножествам (например — для разных подгрупп объектов). Другая проблема связанная с корреляционной матрицей, вычисленной при попарном удалений пропусков, возникает при использовании этой матрицы в других видах анали­за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица; определенным уровнем состоятельности и «соответствия» различных коэффи­циентов. Использование матрицы с «плохими» (смещенными) оценками приводит к тому, что программа либо не в состоянии анализировать такую матри­цу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.

Если попарное исключение пропущенных данных не приводит к какому-либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вы­численные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оцен­ках. Например, если среднее (или стандартное отклонение) значений перемен­ной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с пе­ременной С, то имеются все основания ожидать, что эти две корреляции (А—В и А-С) основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

Анализ корреляционных плеяд. После решения проблемы статистической зна­чимости элементов корреляционной матрицы статистически значимые корре­ляции можно представить графически в виде корреляционной плеяды или пле­яд. Корреляционная плеяда — это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифра­ми — номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда — и р-уровень значимости связи.

Читать еще:  Индукция дедукция анализ

Корреляционная плеяда может отра­жать все статистически значимые связи корреляционной матрицы (иногда называ­ется корреляционным графом) или только их содержательно выделенную часть (напри­мер, соответствующую одному фактору по результатам факторного анализа).

Корреляционный граф и его родственные связи, достоверность которых была установлена в судеб­ном порядке.

Множественная регрессия и корреляция

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

2.1. МЕТОДИЧЕСКИЕ УКАЗАНИЯ

Множественная регрессия — уравнение связи с несколькими независимыми переменными

где у зависимая переменная (результативный признак);

независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще ис­пользуются следующие функции:

• линейная — ;

• степенная –

• экспонента —

• гипербола —

Можно использовать и другие функции, приводимые к линейно­му виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение кото­рой позволяет получить оценки параметров регрессии:

Для ее решения может быть применён метод определителей:

, ,…, ,

где — определитель системы;

— частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии — уравнение регрессии в стандартизованном масштабе:

,

где , — стандартизованные переменные;

— стандартизованные коэффициенты регрессии.

К уравнению множественной регрессии в стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии (β-коэффициенты) определяются из следующей системы уравнений:

Связь коэффициентов множественной регрессии со стандартизованными коэффициентами описывается соотношением

Параметр a определяется как

Средние коэффициенты эластичности для линейной регрессии рассчитываются по формуле:

.

Для расчета частных коэффициентов эластичности применяется следующая формула:

.

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции:

=.

Значение индекса множественной корреляции лежит в пределах от 0 до 1 и должно быть больше или равно максимальному парному индексу корреляции:

.

Индекс множественной корреляции для уравнения в стандартизованном масштабе можно записать в виде:

=.

При линейной зависимости коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции:

=,

-определитель матрицы

парных коэффициентов корреляции;

-определитель матрицы

Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х1 при неизменном уровне других факторов, можно определить по формуле

или по рекуррентной формуле

Частные коэффициенты корреляции изменяются в пределах от -1 до 1.

Качество построенной модели в целом оценивает коэффициент (индекс) детерминации. Коэффициент множественной детерминации рассматривается как квадрат индекса множественной корреляции:

.

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается по формуле

где n — число наблюдений;

m- число факторов.

Значимость уравнения множественной регрессии в целом оценивается с помощью F — критерия Фишера:

Частный F-критерий оценивает статистическую значимость присутствия каждого из факторов в уравнении. В общем виде для фактора xi частный F-критерий определится как

Оценка значимости коэффициентов чистой регрессии с помощью t-критерия Съюдента сводится к вычислению значения

где mbi — средняя квадратическая ошибка коэффициента регрессии bi, она может быть определена по формуле:

.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности.

Считается, что две переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если rxixj≥0,7.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы rxixj (xi≠xj) были бы равны нулю. Так, для включающего три объясняющих переменные уравнения

матрица коэффициентов корреляции между факторами имела бы определитель, равный 1:

,

так как и

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0:

.

Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и надежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Проверка мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных Ho: . Доказано, что величина имеет приближенное распределение x2 c степенями свободы. Если фактическое значение х2 превосходит табличное (критическое) , то гипотеза Ho отклоняется. Это означает, что ,недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора xj остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.

При нарушении гомоскедастичности мы имеем неравенства

.

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта. Основная идея теста Гольдфельда-Квандта состоит в следующем:

1) упорядочение n элементов по мере взрастания переменной x;

2) исключение из рассмотрения С центральных наблюдений; при этом (nC):2>p, где p-число оцениваемых параметров;

Читать еще:  Анализ себестоимости продукции по элементам затрат

3) разделение совокупности из (nC) наблюдений на две группы (соответственно с малыми и с большими значениями фактора х) и определение по каждой из групп уравнений регрессии;

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию со степенями свободы ((nC-2p):2) для каждой остаточной суммы квадратов Чем больше величина R превышает табличное значения F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, пол, образование, климатические условия, отдельные регионы и т. д.). Чтобы вест такие переменные в регрессионную модель, их необходимо упорядочить и присвоить им те или иные значения, т. е. качественные переменные преобразовать в количественные.

Проанализировать матрицу межфакторных корреляций

Тест, это не просто множество, а система тестовых заданий. Требование системности означает, что между заданиями существуют связи, которые можно обнаружить в результатах тестирования. Определение корреляции, как между заданиями, так и заданий с тестом в целом, позволит оценить системные качества теста. Благодаря такому анализу можно будет выполнить «чистку» — избавить тест от заданий, нарушающих его системные свойства.

Если две величины связаны между собой, то между ними есть корреляция. Виды корреляционной связи показаны в таблице 3.9.

Для выяснения вопроса о наличии связи между двумя величинами X и Y необходимо определить, существует ли соответствие между большими и малыми значениями X и соответствующими значениями Y или такой связи не обнаруживается. Значение каждого элемента Xi и Yi определяется величиной и знаком отклонения от среднего арифметического 11 :

Если большие значения Xi соответствуют большим значениям Yi, то это произведение будет большим и положительным, так как

и

То же самое будет наблюдаться и, когда малые значения Xi будут соответствовать малым Yi, поскольку произведение отрицательных чисел будет положительным.

Если же большие значения Xi соответствуют малым значениям Yi, то это произведение будет большим и отрицательным, что будет свидетельствовать об обратной зависимости между этими величинами.

В тех случаях, когда нет систематического соответствия больших значений Xi большим или малым Yi, то знак произведения будет положительным или отрицательным для разных пар Xi и Yi. Тогда сумма

будет близка к нулю. Таким образом, эта сумма велика и положительна, когда X и Y сильно связаны прямой зависимостью, близка к нулю в случае отсутствия связи и велика и отрицательна, когда X и Y сильно связаны обратной зависимостью 11 .

Для того, чтобы эта сумма не зависела от количества значений X и Y, ее следует поделить ее на N-1. Полученная величина sXY называется ковариацией X и Y и является мерой их связи:

Для исключения влияния стандартных отклонений на величину связи, следует поделить ковариацию sXY на стандартные отклонения sX и sY:

Полученная мера связи между X и Y называется коэффициентом корреляции Пирсона. Обозначение r происходит от слова регрессия. Подставив соответствующие выражения, получим формулу для коэффициента корреляции Пирсона rXY 11

Для вычислений более удобна следующая формула

Коэффициент корреляции Пирсона rXY изменяется в пределах от -1 до +1. В таблице 3.7.1 приведены различные виды линейной зависимости и соответствующие значения rXY.

Следует отметить, что в случае нелинейной связи между X и Y коэффициент корреляции может оказаться близким к нулю, даже если связь очень сильная.

Таблица 3.7.1. Типы корреляционной связи

(Гласс Дж., Стэнли Дж., 1976).

Для решения вопроса о наличии связи между заданиями теста, надо, используя данные по столбцам из бинарной матрицы, рассчитать коэффициенты корреляции Пирсона для каждой пары заданий. Для расчетов используются различные статистические программы (SPSS, STATISTICA и др.). В простейшем случае можно использовать табличный процессор Excel с вызовом функции «ПИРСОН».

В случае дихотомического оценивания (1 — верно, 0 –неверно) выражение для коэффициента корреляции упрощается. Введем следующие обозначения:

pm – доля верных ответов для задания с номером m;
qm – доля неверных ответов для задания с номером m;
pk – доля верных ответов для задания k;
qk – доля неверных ответов для задания с номером k;
pmk – доля верных ответов для задания с номером m и k.

Коэффициент корреляции Пирсона, для дихотомических данных называется коэффициентом «фи». Коэффициент φmk, описывающий связь между заданиями с номерами m и k записывается следующим образом 11

Отметим, что коэффициент «фи» и коэффициент корреляции Пирсона дают в результате одно и то же значение, поскольку обе формулы эквивалентны. Рассмотрим пример вычисления коэффициента корреляции между 2-м и 5-м заданиями. Из таблицы 3.2.5 имеем: p2=0.7, q2=0.3, p5=0.5, q5=0.5. Для определения p25 надо подсчитать количество верных ответов на оба задания одновременно. Видно, что испытуемые с номерами 1-5 успешно справились с обоими заданиями (5 верных ответов). Испытуемые 6 и 7 правильно ответили на 2-е задание, но неправильно на 5-е (нет одновременно верных ответов). Испытуемые 8 и 9 не справились и со 2-м и с 5-м заданиями. Таким образом, p25 =5/10 = 0,5.

Результаты расчетов для всех заданий приведены в корреляционной матрице (таблица 3.7.2). Корреляционная матрица представляет собой квадратную матрицу размерности MxM, где M – количество заданий, симметричную относительно главной диагонали. В нашем примере матрица имеет 8 строк и столько же столбцов. Коэффициент корреляции Пирсона, скажем, между 2-м и 5-м заданиями находится на пересечении 2-й строки и 5-го столбца (0,655).

В самом последнем столбце располагается коэффициент корреляции каждого задания с тестовым баллом испытуемого (индивидуальным баллом) – rpb – точечный бисериальный коэффициент корреляции.

ТАБЛИЦА 3.7.2. Корреляционная матрица тестовых заданий.

Ссылка на основную публикацию
Adblock
detector