Volodina-vasilisa.ru

Антикризисное мышление
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Корреляционный анализ примеры решения задач

Основы корреляционного анализа. Примеры анализа прямолинейной связи при парной корреляции

Исследование объективно существующих связей между явлениями — важнейшая задача статистики. В процессе статистического исследования зависимостей выявляются причинно-следственные отношения между явлениями. Причинно-следственные отношения — это такая связь явлений и процессов, когда изменение одного из них — причины ведет к изменению другого — следствия.

Признаки явлений и процессов по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называют факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.

В статистике различают функциональные и стохастические (вероятностные) связи явлений и процессов:

  • Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно значение результативного.
  • Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (вероятностной). Частным случаем стохастической связи является корреляционная связь.

Кроме того, связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

По направлению выделяют связь прямую и обратную:

  • Прямая связь — это такая связь, при которой с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства.
  • В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные:

  • Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида: у=а+bх.
  • Если же связь может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы и др.), то такую связь называют нелинейной (криволинейной) связью.

Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака. Классификация связи по степени тесноты представлена в таблице 1.

Пример решения задачи по теме «Корреляционно-регрессионный анализ» (к задаче №7)

Приведены данные, характеризующие реализацию продукции и производительность труда торгового предприятия:

1) построить уравнение регрессии, считая форму связи этих показателей линейной;

2) измерить тесноту корреляционной связи между произво­дительностью труда и выполнением плана реализации;

3) проанализировать рассчитанные показатели.

1. Уравнение регрессии имеет вид: система уравнений записывается следующим образом:

Из данной системы уравнений параметры находят по следующим формулам:

(1)

(2)

Для того чтобы построить уравнение регрессии произведем вспомогательные расчеты:

Подставим итоговые значения из вспомогательной таблицы в формулы 1-2:

В нашем уравнении регрессии параметр а1 = 13,466 показы­вает, что с увеличением производительности труда на 1 тыс. руб. выполнение плана реализации возрастет на 13,466 %.

Таким образом, уравнение регрессии по данному примеру примет вид:

2. Измерим тесноту корреляционной связи между производи­тельностью труда и выполнением плана реализации линейным коэффициентом парной корреляции:

Линейный коэффициент парной корреляции говорит о прямой связи сильной тесноты между производительностью труда и выполнением плана реализации.

Имеются следующие данные выборочных обследований по проблемам занятости в РФ за 2006 г. о возрастной структуре безработных:

По приведенным данным вычислите:

1) среднее значение варьирующего признака;

2) показатели вариации: размах, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации;

3) моду и медиану;

Постройте графики вариационного ряда.

1) Средний возраст безработных рассчитаем по формуле средней арифметической взвешенной:

где – середина интервала (осредняемый признак), — вес признака.

Преобразуем интервальный ряд в дискретный:

Следовательно, средний возраст равен:

Изобразим графически вариационный ряд, построим гистограмму:

Рисунок 1 – Гистограмма распределения численности безработных в РФ за 2006 г.

2) Рассчитаем показатели вариации, построим вспомогательную расчетную таблицу:

а) Размах вариации: , где максимальное и минимальное значение варьирующего признака;

б) Среднее линейное отклонение рассчитаем по формуле:

в) Среднее квадратическое отклонение рассчитаем по формуле:

г) Коэффициент вариации определим по следующей формуле:

.

Индивидуальные значения признака отличаются от его средней величины на 12,3 года или на 35,9%. Поскольку , следовательно, совокупность можно считать неоднородной.

3) Мода (Мо) – это наиболее часто встречающееся значение признака, или иначе говоря, значение варианты с наибольшей частотой.

Для определения моды в интервальных вариационных рядах с равными интервалами используют следующую формулу:

где — нижняя граница модального интервала;

— величина модального интервала;

— частота модального интервала;

— частота интервала, предшествующего модальному интервалу;

— частота интервала, следующего за модальным.

Модальный интервал в интервальном ряду определяется по наибольшей частоте.

Произведем расчет: модальный интервал – 20-24, поскольку данному интервалу соответствует наибольшая частота ( );

; ; ;

Подставив в формулу моды соответствующие значения, получим:

Медиана (Ме) – это значение признака, которое делит статистическую совокупность на две равные части. Медиана для интервального вариационного ряда с равными интервалами рассчитывается по следующей формуле:

где — нижняя граница медианного интервала;

— величина медианного интервала;

— полусумма частот ряда;

— сумма накопленных частот в интервалах, предшествующих медианному;

— частота медианного интервала.

Для определения медианного интервала необходимо рассчитать суммы накопленных частот.

Корреляционный анализ. Пример решения

Уравнение парной регрессии.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит степенной характер.

Степенное уравнение регрессии имеет вид y = a x b

Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = a x b + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

После линеаризации получим: ln(y) = ln(a) + b ln(x)

Для оценки параметров α и β — используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

Для наших данных система уравнений имеет вид

20a + 189.47 b = 214.97

189.47 a + 1813.72 b = 2056.89

Домножим уравнение (1) системы на (-9.47), получим систему, которую решим методом алгебраического сложения.

-189.47a -1794.28 b = -2035.74

189.47 a + 1813.72 b = 2056.89

Откуда b = 1.0858

Теперь найдем коэффициент «a» из уравнения (1):

20a + 189.47 b = 214.97

20a + 189.47 • 1.0858 = 214.97

Получаем эмпирические коэффициенты регрессии: b = 1.0858, a = 0.4625

Уравнение регрессии (эмпирическое уравнение регрессии):

y = e 0.46245913 x 1.0858 = 1.58797x 1.0858

Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

1. Параметры уравнения регрессии.

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

1.4. Ошибка аппроксимации.

В среднем, расчетные значения отклоняются от фактических на 74.15%. Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

1.5. Эмпирическое корреляционное отношение.

Индекс корреляции.

Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

1.6. Индекс детерминации.

т.е. в 96.02 % случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая. Остальные 3.98 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

Тема 11 Причинность, регрессия, корреляция

Причинность, регрессия, корреляция

Исследование объективно существующих связей между социально-экономически­ми явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения ‑ это такая связь явлений и процессов, когда изменение одного из них ‑ причины ведет к изменению другого ‑ следствия.

Финансово-экономические процессы представляют собой результат одновременно­го воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики.

Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее.

Третий, последний этап ‑ интерпретация результатов, вновь связан с качественны­ми особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач ис­следования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами.

Признаки, изменяющиеся под действием факторных признаков, называются результативными.

В статистике различают функциональную и стохастическую зависимости.

Функ­циональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

Таблица 11.1. ‑ Количественные критерии оценки тесноты связи

Величина показателя связи

По направлению выделяют связь прямую и обратную.

Прямая ‑ это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака.

Пример. Так, рост объемов про­изводства способствует увеличению прибыли предприятия.

В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная ‑ это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака.

Пример. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные.

Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии, то ее называют линейной связью вида:

Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например:

Для выявления наличия связи, ее характера и направления в статистике использу­ются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат ‑ результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное распо­ложение точек на графике. Чем сильнее связь между признаками, тем теснее будут груп­пироваться точки вокруг определенной линии, выражающей форму связи.

В статистике принято различать следующие виды зависимостей:

  1. Парная корреляция ‑ связь между двумя признаками (результативным и факторным, или двумя факторными).
  2. Частная корреляция ‑ зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  3. Множественная корреляция ‑ зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты и направления связи между двумя признаками (при парной связи) и между результа­тивным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позволяют определять «полезность» факторных признаков при построении уравнения множест­венной регрессии. Знаки при коэффициентах корреляции характеризуют направление связи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторных признаков).

Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время, построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться требования:

  1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
  2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.
  3. Все факторные признаки должны иметь количественное (числовое) выражение.
  4. Наличие достаточно большого объема исследуемой совокупности (в последующих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем очень мал).
  5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью.
  6. Отсутствие количественных ограничений на параметры модели связи.
  7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы.

Парная регрессия на основе метода наименьших квадратов позволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным.

Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи ‑ гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия.

Оценка параметров уравнений регрессии ( и — в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:

где п ‑ объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр ао показывает усредненное влияние на результа­тивный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии а1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения. xi – теоретические значения результативного признака; yi – наблюдаемые значения факторного признака.

Пример. Имеются данные по 10 однотипным предприятиям о выпуске продукции (х) в тыс.ед. и о расходе условного топлива (у) в тоннах (графы 1 и 2 табл. 17).

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними. Для этого представим данные в табл. 11.2 (вместе с расчетными столбцами).

Таблица 11.2 – Расчет показателей для нахождения уравнения регрессии

Читать еще:  Под резервами в экономическом анализе понимают
Ссылка на основную публикацию
Adblock
detector