Volodina-vasilisa.ru

Антикризисное мышление
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Канонический анализ в статистике

Поисковая геохимия

воскресенье, 25 января 2015 г.

Дискриминантный анализ в Statistica

Дискриминация (от лат. discriminatio -различение) в математической статистике – выявление различий между объектами исследования. Если общества развитых стран борются с дискриминацией, то для статистиков – это хлеб насущный.

Итак, дискриминантный анализ служит для выявления линейных зависимостей между двумя и более группами. Он является как разведочным, так и подтверждающим. То есть, мы можем как найти статистические зависимости обуславливающие различие между группами, так и использовать их для дальнейшей дискриминации других объектов.

Сам по себе дискриминантный метод является линейным методом, а потому имеет много общего с дисперсионным (ANOVA) и регрессионным методами.

Данный метод предъявляет ряд требований к данным:

  1. Нормальность признаков
  2. Одинаковая дисперсия признаков в группах
  3. Различие в средних

В принципе, данными условиями можно пренебречь. Главное, что бы работало. При этом чем меньше соблюдаются условия – тем меньше будет процент верной классификации. Вот и всё.

Важно отметить, что в геохимии мы имеем дело, как правило, с нелинейными закономерностями. Но это не означает, что линейные функции подходят неудовлетворительно. По своему опыту дискриминации интрузий, аномалий и пр. объектов, – использование нейросетей для дискриминации позволяло улучшить результат всего на 2-5%.

Рис. 1. Выборка данных.

Допустим мы имеем выборку силикатных анализов трёх типов интрузий: Норильский тип — продуктивный и несёт оруденение; Зубовский – похож на Норильский, но непродуктивный; Нижнеталнахский – совсем “пустой”. Дополнительно, в выборку добавлен ряд проб с нового объекта и нам потребуется выяснить к какому типу относится он. Важно отметить, что в нашем случае, каждый тип охарактеризован разным количеством проб в силу неравномерности изучения, но никак не природной встречаемости (это важно).

Лог-нормальные данные были предварительно прологарифмированы. О том, как проверить данные на нормальность – см. ранние посты.

Рис. 2. Строим графики типа ящик-с-усами.

Данные графики показывал как строить ранее, потому у вас затруднений не должно быть.

Графики типа ящик-с-усами показывают различие в средних и дисперсии, то что нам нужно для предварительной разведки данных.

Рис. 3. График распределения оксида хрома по типам интрузий.

Типичный график с высоким различием объектом. Посмотрите, ящики Норильского и Нижнеталнахского типов не пересекаются, средние однозначно различаются. Дисперсия (ширина ящика) у Норильского типа выше, но этим можно пренебречь. Теоретически, можно проводить дискриминацию уже по оксиду хрома – посчитать необходимое количество проб, и вперед, но мы хотим большего – большей надежности и качества за счёт использования других переменных.

Рис. 4. График распределения оксида марганца по типам интрузий.

Типичный график со слабым различием между группами.

Рис. 5. Традиционный дискриминантный анализ.

Ниже есть выбор анализа General Discriminant (Общий дискриминантный). Для него доступны категориальные независимые переменные (у геохимиков, это например, название вмещающих горных пород, их возраст; у кредиторов – внешний вид заёмщика). Так же, там имеется кросс-проверка результатов. Тем не менее, выбрал “традиционный” анализ, потому что в таком случае можно еще провести канонический анализ и полнее расммотреть зависимости.

Рис. 6. Определение переменных и групп для анализа.

Рис. 7. Выбор параметров проведения анализа.

В данном случае можно выбрать один из трёх методов выбора переменных:

  1. стандартного, когда включаются сразу все переменные;
  2. последовательного включения, когда включаются данные у которых F больше определённого значения (уточняется в Advanced);
  3. последовательного исключения, когда из всех переменных исключаются те, у которых значение F меньше определённого значения (выставляется в Advanced).

F значение – отношение межгрупповой дисперсии к внутригрупповой.

Рис. 8. Итоговая характеристика анализа.

Итак, из тринадцати переменных анализ выбрал одиннадцать. Последней включённой переменной оказался оксид магния с F = 2,306. Лямбда Уилкса составила 0,19, что близко к нулю и является хорошим результатом. То есть, можно ожидать выского процента верной классификации.

Рис. 9. Таблица переменных участвовавших в дискриминантном анализе.

Как видно из таблицы, максимальные различия вносят переменные оксида хрома, калия, и железа II.

Рис. 10. Результаты классификации.

Перед выводом отчётных таблиц необходимо определиться с априорными вероятностями (Apriori classification probabilities). Как говорил в самом начале, у нас количество проб не влияет на природную встречаемость интрузий, а обусловлено лишь неравномерным изучением объектов. Поэтому следует выбрать равнозначные априорные вероятности. Тем не менее, если вы имеете априорную информацию (например, встречаемость интрузий в конкретном районе, или вероятность нахождения интрузий по геофизическим данным), или хотите подстраховаться, то можно самостоятельно расставить априорные вероятности через пункт User Defined.

Читать еще:  Стратегический анализ прогнозирование и планирование

Затем выведем таблицы: фукнций классификации, матрицы классификаций и таблицу классификации проб. Каждая таблица зависит от априорных вероятностей.

Рис. 11. Функции классификации.

Так то тут представлены коэффициенты к дискриминантным функциям типа y=ax+b. Выигрывает тот тип, значение дискриминантной функции которого принимает максимальное значение.

Рис. 12. Матрица результатов классификации.

В строках матрицы — наблюдаемые значения, в колонках – предсказанные. Таким образом, Норильский тип чаще всего путаем с Зубовским, и реже с Нижнеталнахским.

Верная классикация происходит в 88% случаев, зная это с помощью биномиального распределения можно расчитать необходимое количество проб для дискриминации объектов.

Рис. 13. Таблица результатов классификации.

В выборку были добавлены пробы без определённого типа интрузии, но они так же были проанализированы и в большинстве своём относятся к Норильскому типу.

Рис. 14. Проведение канонического анализа.

Канонический анализ – аналогичен методу главных компонент и служит для выявления связей между двумя и более множествами переменных.

Рис. 15. Параметры канонического анализа.

Рис. 16. Тест Хи-квадрат канонических корней.

В данной таблице показываются все канонические корни и их статистическая значимость. Обращаем внимание на значимые корни. В данном случае, два корня и оба статистически значимы.

Рис. 17. Факторный анализ канонических корней.

Объяснить структуру канонических корней можно по таблице факторных нагрузок, которая аналогична одноименной в факторном анализе. Если кто сомневается, то можно подглядеть в графики типа ящик-с-усами.

Если рассмотреть данную таблицу вместе с графиков канонических значений (рис. 19), то увиидим, что чем меньше значение Lg(Cr2O3) и блольше Lg(K2O) тем больше значение Корня 1, а значит, тем более вероятнее классификация Нижнеталнахского типа. Корень 2 разделяет Норильский и Зубовский типы: чем больше SiO2, Na2O и FeO и чем меньше Fe2O3 и MgO, тем более вероятен Зубовский тип.

Получается, что для Нижнеталхнаского типа характерна калиевая специализация с обедненностью хромом, а для Норильского типа характерна хромово-магниевая специализация с повышенной окисленностью железа.

Рис. 18. Построение графика распределения канонических значений.

Рис. 19. График распределения канонических значений.

Рис. 20. Добавление средних значений на график.

Поскольку, в дискриминации всё упирается в средние значения, то логично вынести их на график. Скопируем средние значения канонических корней из соответствующей таблицы.

На графике щёлкам правой клавишей мышки и выбраем пункт “Graph Data Editor” – редактор данных графика

Рис. 21. Добавление нового графика.

В любом месте щелкаем правой клавишей мышки и выбираем пункт “Add new plot” – добавить новый график. Вставляем скопированные средние значения.

Рис. 22. Итоговый график распределения канонических значений.

Канонические корни аналогичны факторам – являются латентными призаками. То есть все отдельные особенности переменных объединяются в новые математические переменные. Они не являются доказательством определённых геохимических процессов проиходивших в недрах, но могут их отражать, потому называются латентными. Удобство сокращения тринадцати переменных в две на глазах.

Кроме всего, на графике можно посмотреть форму групп, их положение, а так же наличие ошибок в данных – если пробы отходят сильно далеко от своих групп, то скорее всего они являются ошибочно классифицированными, вплоть до определения нового типа интрузии.

На графике, например, можно увидеть отдалённые три пробы Норильского типа, которые находятся в поле Нижнеталнахского. Надо их проверить.

Журнал ВАК :: УПРАВЛЕНИЕ ЭКОНОМИЧЕСКИМИ СИСТЕМАМИ

Анализ канонических корреляций показателей эколого-социально-экономического развития региона

Анализ канонических корреляций показателей эколого-социально-экономического развития региона

Сыровацкая Ирина Владимировна

Аспирант кафедры статистики и эконометрики

Оренбургский государственный университет

Аннотация. В статье рассмотрен метод анализа канонических корреляций системы статистических показателей, характеризующих эколого-социально-экономическое развитие региона.

Читать еще:  Количественные методы анализа данных

Abstract. In article the method of the analysis of initial correlations of system of the statistics characterizing ecological, social and economic development of region is considered.

Ключевые слова: эколого-социально-экономическое развитие региона, система статистических показателей, анализ канонических корреляций.

Keywords: ecological, social and economic development of region, system of statistics, the analysis of initial correlations.

Изучение закономерностей развития системы экономика-общество-природа является в настоящее время весьма актуальным: в центре внимания многих учёных находится важная задача соизмерения экономического развития с качеством жизни населения и возможностями окружающей природной среды воспринимать последствия такого развития.

Статистическое исследование эколого-социально-экономического развития региона возможно в рамках системного подхода, т.е. когда изучению подлежит влияние не отдельных факторов на процессы развития и их результаты, а целая система факторов и результатов [8]. Обоснование того, что система показателей региональной статистики соответствует принципам системного подхода, представлено в работе [6, с.17- 18].

На основе системы статистических показателей, построенной в соответствии с принципами системного анализа и адекватно отражающей состояние и развитие экономики, общества и окружающей природной среды, может быть получена полная, своевременная и достоверная статистическая информация, которая будет в дальнейшем использована для принятия управленческих решений на уровне региона и его административно-территориальных образований.

В соответствии со Стратегией социально-экономического развития Оренбургской области [1] нами была предложена система статистических показателей, характеризующая экологическое, социальное и экономическое развитие региона в целом и в разрезе его административно-территориальных образований (городов и районов) [7].

Рис. 1 – Блочная архитектура системы статистических показателей, характеризующих эколого-социально-экономическое развитие региона

Докажем, что сформированная нами система статистических показателей, характеризующая эколого-социально-экономическое развитие региона является системой, отвечающей принципам системного анализа, а не произвольным набором, перечнем показателей, посредством изучения наличия, тесноты и направления связи между структурными элементами системы показателей. Ставится задача статистического исследования зависимостей между направлениями и блоками показателей сформированной системы методом анализа канонических корреляций. Практическая реализация метода осуществлялась в ППП Statistica 6.0 [2] .

Анализ канонических корреляций проводился по 47 административно-территориальным образованиям (12 городам и 35 районам) Оренбургской области, относящейся к группе регионов со слабой устойчивостью тенденции роста экономики, которую формируют более одной трети регионов РФ, обеспечивающих экономический рост [5]. Период исследования определён шестилетием, начиная с 2004 г. Этот период характерен завершением перехода государственной статистики в РФ к новой системе классификации – по видам экономической деятельности, и учётом экономических показателей согласно ОКВЭД. Показатели, имеющие стоимостные единицы измерения, были пересчитаны в сопоставимые цены 2009 года с помощью индекса-дефлятора валового регионального продукта. Чтобы избежать так называемой «привязки» к территории, часть показателей была получена расчётным путём (на душу населения; на 1000 человек трудоспособного населения; на 1000 населения). Для анализа использовались официальные публикации территориального органа Федеральной службы государственной статистики по Оренбургской области.

В ходе проверки предпосылок применения метода канонических корреляций выявлено, что совокупность из 57 показателей имеет многомерное нормальное распределение. Анализ вариации показал, что практически по всем рассмотренным показателям наиболее выделяется г. Оренбург, т.е. является “выбросом”. При проведении анализа канонических корреляций рекомендуется выявлять и исключать выбросы. Однако исключать выявленный “выброс” из совокупности городов и районов Оренбургской области не целесообразно, так как г. Оренбург представляет собой субъект экономической деятельности, имеющий хозяйственные связи с другими городами и районами региона.

Канонический анализ позволяет исследовать зависимость между двумя множествами переменных (в нашем случае – блоками показателей), при этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества (блока показателей) [4].

Для рассмотрения берутся взвешенные суммы по множествам, чтобы веса, приписанные отдельным слагаемым, соответствовали реальной “структуре” переменных, т.е. их взаимной значимости:

,

При этом под знаком “ = ”, подразумевается наличие стохастической взаимосвязи между линейными комбинациями переменных обоих множеств.

Таким образом, если имеются два множества, содержащие и переменных соответственно, то будет исследоваться зависимость между взвешенными суммами переменных из каждого множества (т.е. между линейными комбинациями и переменных соответственно).

После того как сформулировано в общем виде “уравнение модели” для канонической корреляции, определяются веса для двух наборов переменных. При подборе весовых коэффициентов исходят из условия максимальной коррелированности двух множеств, т.е. рассматриваются все максимально коррелированные взвешенные суммы (максимизируется значение корреляции между каноническими переменными). При этом последовательно получаемые пары канонических переменных не коррелированны друг с другом и объясняют всё меньшую и меньшую долю изменчивости. Взвешенные суммы определяют канонический корень, или каноническую переменную, число канонических корней равно числу переменных в меньшем множестве.

Читать еще:  Анализ нематериальных активов предприятия

Проанализируем корреляции внутри и между множествами – показателями направлений “Развитие человеческого потенциала” и “Общеэкономические ориентиры”. В первом множестве (показатели направления “Развитие человеческого потенциала”) наибольшая зависимость наблюдается между переменными Y 3 — На 1000 человек трудоспособного возраста приходится лиц старше трудоспособного возраста и Y 5 — Коэффициент смертности (на 1000 человек населения) : коэффициент парной корреляции равен 0,87. Во втором множестве (показатели направления “Общеэкономические ориентиры”) сильная зависимость наблюдается между Х1 — Сальдированный финансовый результат (прибыль минус убы­ток) деятельности организаций на одно предприятие (тыс. руб.) и Х4 — Инвестиции в основной капитал на душу населения (в сопост. ценах; руб.): коэффициент парной корреляции равен 0,92. Для переменных из разных множеств наибольшая корреляция выявлена между Y 28 — Оборот розничной торговли на душу населения (руб.) и Х14 — Грузооборот автомобильного транспорта организаций всех видов деятельности (тыс. тонно-км): коэффициент парной корреляции равен 0,93. Предположительно, что переменные Y 3, Y 5, Y 28, Х1, Х4 и Х14 будут определять значение канонической корреляции между двумя множествами показателей.

Далее вычислено столько собственных значений матрицы , сколько имеется канонических корней (т.е. столько, сколько переменных содержит наименьшее множество). Собственные значения матрицы , ранжированные по убыванию, равняются квадратам канонических корреляций (коэффициентам корреляций между множествами). Для каждого канонического корня значения канонической корреляции, статистики , — уровень приведены на рис. 2.

Рис. 2 – Канонические корреляции между показателями направлений “Развитие человеческого потенциала” и “Общеэкономические ориентиры”

Данный рисунок показывает, что статистически значимым являются первые десять канонических корней, которым соответствуют первые десять пар канонических переменных. Однако мы ограничимся рассмотрением первой пары канонических переменных, для которой наблюдается максимальное значение канонической корреляции 0,9998:

Значение канонической корреляции 0,9998, свидетельствует о наличии сильной зависимости между показателями направлений “Развитие человеческого потенциала” и “Общеэкономические ориентиры”. Статистика 755,5 и уровень значимости показывают значимость данной канонической корреляции.

Так как канонический корень представляет собой две взвешенные суммы, по одной на каждое множество, то для толкования “смысла” канонического корня рассматриваются канонические веса, сопоставленных каждому множеству переменных. Чем больше приписанный вес (т.е. абсолютное значение веса), тем больше вклад соответствующей переменной (показателя) в значение канонической переменной. Рассмотрение канонических весов позволяет увидеть, как конкретные переменные (показатели) в каждом множестве влияют на взвешенную сумму (т.е. каноническую переменную).

Из выражения (2) видно, что для левого множества (показатели направления “Развитие человеческого потенциала”) наибольший вклад в значение первой канонической переменной вносят Y 19 — Численность врачей на 10000 человек населения . Для правого множества (показатели направления “Общеэкономические ориентиры”) наибольший вклад в значение первой канонической переменной вносит Х14 — Грузооборот автомобильного транспорта организаций всех видов деятельности (тыс. тонно-км).

Канонические веса соответствуют уникальному вкладу, вносимому соответствующей переменной (показателем) во взвешенную сумму или каноническую переменную; коэффициенты канонической корреляции соответствуют корреляции между взвешенными суммами по двум множествам переменных. Однако, они не говорят ничего о том, какую часть изменчивости (дисперсии) каждый канонический корень объясняет в переменных.

Тем не менее, можно сделать заключение о доле объясняемой дисперсии, рассматривая нагрузки канонических факторов. Нагрузки канонических факторов представляют собой обычные корреляции между каноническими переменными и показателями из каждого множества, и их можно интерпретировать так же, как и в факторном анализе (таблица 1).

Наиболее тесная корреляционная связь существует между канонической переменной и показателями первого множества Y 28 — Оборот розничной торговли на душу населения (коэффициент корреляции равен 0,69) и Y 19 — Численность врачей на 10000 человек населения (коэффициент корреляции равен 0,63).

Таблица 1 — Факторная нагрузка канонических переменных и

переменная

Ссылка на основную публикацию
Adblock
detector