Volodina-vasilisa.ru

Антикризисное мышление
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Основные методы анализа данных

Методика анализа данных на службе у бизнеса

Методика анализа данных в бизнес-сферу пришла из высшей математики. Но распространившийсь в массы, анализ данных перешел на уровень автоматизации, а зачаровывающий мир цифр, закономерностей и формул был отдан на откуп мощным программным инструментам визуализации.

Бизнес никогда еще не был так силен до того момента, как в его распоряжении оказалась методика анализа данных Data Mining. Другое дело, что силой далеко не каждая компания в состоянии распоряжаться умело. Более того, даже не каждая имеет к ней доступ, потому что просто боится подступиться. А ведь анализ данных — уже далеко не только прерогатива крупных компаний. Благодаря визуализации и автоматизации методику анализа данных может использовать даже небольшое предприятие. Зачем организациям и малого, и среднего бизнеса нужен анализ данных:

  • для создания стратегии развития,
  • для анализа деятельности конкурентов,
  • для контроля работы отделов компании.

Как используют Data Mining в компании Mail.ru?

Методы анализа данных в бизнесе

Можно выделить несколько основных методов анализа данных, которые можно использовать как самостоятельно, так и группируя их между собой. Это:

  • кластеризация — это группировка фактов по определенному признаку (бывают большие кластеры, внутри них можно создавать подкластеры, подподкластеры и так далее), аудиторию можно разбить, например, на состоявшихся покупателей и несостоявшихся, на группы по возрасту;
  • классификация — это способ анализа данных, предполагающий разделение событий или явлений на группы по единому признаку. В отличие от кластеров, у групп классификации есть что-то общее ;
  • регрессия — методика анализа данных, выявляющая зависимости с последующим прогнозированием событий на основе полученной информации ,
  • выявление закономерностей — анализ данных, выявляющий порядок действий, их алгоритмичность ,
  • выявление последовательностей — следующий шаг после определения регрессий и выявления закономерностей; этот метод анализа данных предполагает прогнозирование во времени (например, если клиент купил 10 килограммов корма для своей собаки, то, возможно, он может купить столько же через определенное время), этот метод можно применять для транзакционных автоматических почтовых рассылок);
  • выявление отклонений — наиболее тонкий метод, позволяющий находить новые неочевидные последовательности, помогает точечно персонализировать предложения для клиентов.

Инструменты анализа данных в бизнесе

Методика анализа данных работает даже с большими объемами информации — даже с информацией, которая хранится в библиотеках:

Ранее для глубокого анализа данных по методикам были необходимы серьезные математические знания, даже если это касалось бизнес-процессов. Однако сейчас описанные способы анализа благодаря автоматизации и визуализации доступны большинству компаний. Методика анализа данных хорошо работает у следующих программ:

  • Alteryx, позволяющем собирать данные из разных источников, обрабатывать их и приводить к единому стандарту, в том числе группировать информацию, выявлять закономерности, строить математические гипотезы и так далее;
  • Tableau позволяет визуализировать любую информацию big data для анализа больших данных и таким образом все данные становятся наглядными и понятными широкому кругу пользователей; руководству компании останется лишь правильно сформулировать вопросы.

Цифры о нас

Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными – находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.

За это время мы разработали и внедрили решения для различных отраслей и направлений бизнеса:

  • анализ продаж,
  • прогнозирование эффективности промо-акций,
  • отслеживание воронки продаж по конкретной кампании с показателями конверсии на каждом этапе,
  • сегментация по различным методам: ABC, RFM и т.д.,
  • ключевые показатели интернет-маркетинга,
  • анализ товара на складах,
  • аналитика для отдела кадров (карточки сотрудников, обучение, анализ KPI и т.д.),
  • анализ финансовых показателей
  • и многое другое.

Хотите узнать, как провести анализ и сделать отчеты быстро?

Полезные статьи → Статистические методы анализа данных для решения практических задач (часть вторая)

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерные типы анализа данных

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

  1. Факторный анализ
  2. Кластерный анализ

Факторный анализ

Суть факторного анализа, состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

Кластерный анализ

Кластерный анализ (от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

Кластерный анализ хорошо зарекомендовал себя, и на сегодняшний день применяется в различных прикладных областях:

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

Рассмотренные методики относятся к анализу данных, полученных в ходе проведения количественных исследований.

По вопросам расчета индексов:

Телефон: +7 (383) 203-49-99

Начало (часть первая) и продолжение (часть третья) статьи «Статистические методы анализа данных для решения практических задач».

Простые методы анализа данных

Чтобы рассказать что-то релевантное всем слушателям, которые могли быть очень неоднородны по знаниям и умениям, я выбрал тему, которую пропагандировал несколько лет назад… решать можно (и часто нужно) простыми методами, буквально в несколько строк. Ниже сокращённое описание доклада.

Читать еще:  Осуществление анализа возможных последствий планируемых реформ

Анализ данных всегда начинается с разведывательного анализа данных (EDA), который, кроме основной цели «понять, как устроены данные», имеет ещё несколько важных подцелей:

  • найти «волшебные признаки» (которые почти решают задачу, или с помощью которых чётко видны какие-то паттерны),
  • понять, как «меняются признаки» (насколько можно верить данным или синтезируемым признаковым описаниям при изменении времени или категорий объектов),
  • использовать контекст (= экспертные знания, нашу интуицию и т.п.),
  • выявить информационные утечки (не содержат ли описания явно/неявно лишнюю информацию),
  • построить простые бенчмарки (алгоритмы в несколько строчек кода, которые надёжны, интерпретируемы и т.п.).

Забавно, но часто бывает, что полученный в рамках (качественной!) разведки бенчмарк становится финальным алгоритмом (как раз по причине простоты и надёжности). В бизнесе так бывает существенно чаще, но иногда это можно наблюдать и в спортивном анализе данных, где борьба идёт за доли процентов.

Классификация сигналов в 34 символа

Когда-то (в докэгловскую эпоху — в 2008 году) я принимал участие в соревновании «Ford Classification Challenge». Необходимо было разработать алгоритм, который по сигналу датчика детектирует поломку. Сигналы классов: 1 (есть поломка) и 0 (нет) показаны на рис. 1.

Рис. 1. Сигналы разных классов в задаче FCC-2008.

Здесь, чтобы не загромождать картинку, показано всего 4 сигнала, но если проанализировать большее число, то будет заметно, что сигналы

  • непериодические (хотя и напоминают колебания),
  • не содержат заметных паттернов,
  • неоднородные.

Последнее означает, что какие-то естественные их характеристики заметно меняются со временем. Например, если взять среднее значение сигнала, то в начале измерений и в конце средние слабо связаны, даже не коррелируют, см. рис. 2.

Рис. 2. Средние значения сигналов в начале и конце.

Кроме того, не находятся и волшебные признаки (по которым классы неплохо разделялись)… Когда фантазия по придумыванию признаков заканчивается, можно «поменять сигнал». Например, придумывать признаковое описание не самого сигнала, а его производной, см. рис. 3. На первый взгляд, на рис. 3 не видно ничего хорошего…

Рис. 3. Среднее и дисперсия модуля производной.

Но если увеличить масштаб…

Рис. 4. Увеличение рис. 3.

Видно, что «хвостик» облака точек целиком состоит из объектов класса 0, т.е. если у сигнала небольшое среднее модуля производной, то, скорее всего, он соответствует нормальной работе механизма. Если покопать в эту сторону, то выяснится, что это просто следствие того, что в «нормальных» сигналах производная чаще обращается в ноль, см. рис 5.

Рис. 5. Среднее модуля производной vs число точек с нулевой производной.

Казалось бы мы нашли волшебный признак — число точек (понятно, что лучше взять процент), в которых производная обратилась в ноль! Но давайте на этом не остановимся… Как можно обобщить выражение, которое подсчитывает число точек с нулевой производной? На рис. 6 показано два способа:

  1. Вместо подсчёта числа точек, в которых разница текущего и следующего значения равна нулю, можно задаться некоторым порогом (чтобы разница отличалась не больше, чем на этот порог).
  2. Можно считать совпадения не соседних значений, а вообще — все совпадения, которые есть в сигнале (это, правда, не обобщение, а модификация идеи).

Рис. 6. Два обобщения формулы.

На рис. 7 показана диаграмма рассеивания в координатах двух новых признаков, построенных по обобщениям (1) и (2). Обобщение (1) провалилось, но зато обобщение (2) оказалось идеальным признаком! По нему обучающая выборка разделяется со 100%-й точностью!

Рис. 7. Диаграмма рассеивания по обобщениям волшебного признака.

После окончания соревнования выяснилось, что и на тестовой выборке точность также 100% (тогда не было публичных турнирных таблиц, каждый участник делал всего одну отсылку, по которой и считалось качество) — она была лишь у одного участника и была получена с помощью 34 символов кода в системе Matlab

Чтение мысли с помощью параллельного переноса

Ещё одна история из давних времён… В начале 2000х проводилась серия соревнований «Brain Computer Interface», в которых предлагались задачи анализа сигналов головного мозга. В частности, сейчас я расскажу об одном решении бинарной классификации кортикограмм. Особенность задачи состояла в том, что обучающая и контрольная выборки были собраны в разные дни… для сигналов головного мозга это означает, что они будут очень непохожими (меняется эмоциональное состояние испытуемого, сопротивление проводников, даже точки установок электродов для снятия сигналов).

На рис. 8 показаны диаграммы рассеивания по нескольким придуманным признакам. Видно, что тестовая выборка лежит в стороне… но по форме и некоторому зазору между двумя облаками точек она очень похожа на обучающую.

Рис. 8. Признаковое пространство в задаче классификации кортикограмм.

Поэтому в этой задаче решение было примитивным… пороговое правило по очень простому признаку. Порог выбран не с помощью скользящего контроля на обучении (как принято), а просто «по картинке» (верхнее облако теста — класс 1, нижее — класс 0). Это, кстати, обеспечило 3е место в соревновании, в котром принимали участие лаборатории, специализирующиеся на BCI (первое место заняла китайская лаборатория, использовавшая SVM над CSSD + FDA + WM + FDA).

Кстати, чуть позже при решении подобных задач (когда обучение и тест распределены по-разному), я применял такой приём: находил преобразование признакового пространства, которое «накладывает» контрольную выборку на обучающую. В данном случае эти две выборки совмещаются небольшим поворотом и параллельным переносом.

Узнайте о других решениях

Аналитика продаж

Энергетика и коммунальные услуги

Основные понятия финансовых рисков

Методы прогнозирования продаж

27 важных HR-метрик

Утечки («лики») в данных

Сейчас уже ликами никого не удивишь и рассказы победителей разных соревнований на 70% состоят из того, как они нашли что-то в данных, от чего зависит решение (хотя это и не может быть использовано при реальной эксплуатации алгоритма — только для фиксированного набора данных).

Автор первый раз столкнулся с ликами где-то 6 лет назад на платформе crowdanalytix. Там решалась задача определения реакции пользователя на рассылку: откликнется (1) или нет (0). Упрощённо (выбрасывая некоторые признаки) обучающая таблица выглядела так:

Первое что надо сделать, когда есть информация о действиях клиента — вычленить отдельных и взглянуть на них. В этой задаче клиент идентифицировался уникальной парой (id, регион). Если теперь упорядочим подтаблицу, содержащую информацию об одном клиенте по признаку «сколько предложений», то получим что-то типа

Нетрудно видеть, что если какое-то предложение было успешным (y=1), то число успешных предложений увеличивалось на единицу в следующей строке. Понятно, что даже если y нам не известен он почти полностью (кроме последнего значения) восстанавливается по парам (число предложенией, число успешных) для каждого клиента! Это следует просто из названий признаков. Любопытно, что только 5 участников из 55 тогда заметили это (т.е. использовали смысл признаков для решения задачи). Полезно также отметить, что культура решения задач заметно выросла за 6 лет. Думаю, сейчас больший процент решателей понимают, что названия признаков тоже важны.

Кстати, подобный лик повторила компания WikiMart, когда устраивало своё соревнование. Тогда в данных был признак «число страниц в сессии», «номер страницы по порядку посещения», нужно было определить, является ли текущая страница последней в сесии пользователя…

kNN жив!

Не всегда задачи решаются сложными методами. Есть простые и довольно универсальные методы, которые работают. Например, метод k ближайших соседей (kNN) и различные его обобщения. В соревновании VideoLectures.Net Recommender System Challenge нужно было разработать рекомендательную систему, причём, в одной из подзадач — для работы в режиме холодного старта (cold start): надо рекомендовать новые видео (для них нет статистики просмотров) для совершенно нового пользователя (для которого нет истории поведения, но есть информация о первом просмотренном видео) на ресурсе видеолекций. Простая идея: давайте синтезируем «хорошую» метрику на множестве видео-лекций и решим задачу обычным ближайшем соседом (к уже просмотренной лекции порекомендуем самые похожие из новинок).

А как сделать метрику? Легко придумать метрики для частей описания видео-лекции:

  • Сравнение категорий видео (хэмингово расстояние — совпадают или нет)
  • Сравнение авторских коллективов (косинусная мера сходства на характеристических векторах авторов)
  • Сравнение языков (хэмингово расстояние — совпадают или нет)
  • Сравнение названий (любая метрика над текстами)
  • Сравнение описаний (любая метрика над текстами)
  • и т.п.
Читать еще:  Анализ и оценка прибыли организации

Искомую метрику в простейшем варианте можно искать как линейную комбинацию перечисленных базовых. Хотя конкретно в этой задаче она получалась как сумма квадратных корней из линейных комбинаций квадратов базовых метрик, но почему так… уже другая история (желающие могут почитать статью).

Методы анализа полученных данных

Рассмотрим некоторые методы анализа полученных данных, касающихся функционирования и развития политических явлений и процессов. Речь идет о статистических и гуманитарных методах.

Статистические методы

При использовании этих методов полученные данные делят на первичные и вторичные. К первичным относят данные, полученные самим исследователем в ходе его наблюдений, проведения анкетных опросов, интервью с интересующими его субъектами, контент-анализа и т.д. Ко вторичным – данные, полученные другими исследователями как в настоящее время, так и в прошлом. Возможно, эти данные были получены при изучении другого ряда политических явлений, однако после соответствующей обработки они могут быть достаточно корректно использованы исследователями в анализе тех явлений, которые они изучают в настоящее время.

Анализируя первичные и вторичные данные, исследователь может получить ответы на разные вопросы: предпосылки и непосредственные причины возникновения изучаемых политических явлений и процессов, их содержание и направление развития, вносимые ими изменения в существующую политическую действительность и др. При этом прибегают к построению различных теоретических моделей, в том числе одномерной и бинарной, а также к использованию множественного анализа и его моделей.

Одномерная модель – это модель с одной переменной, с помощью которой можно получить ответы на относительно простые вопросы: «Сколько»? и «Что это»? («Сколько избирателей проголосовало за данную партию? Что представляет собой электорат определенного кандидата? . Для изучения такой переменной, как электоральный выбор, достаточно подсчитать количество проголосовавших за ту или иную партию или кандидата и представить эти значения в виде процентного распределения»[1]).

Бинарная модель воспроизводит разные виды взаимодействий двух переменных. Поэтому «можно построить несколько моделей: А является причиной В; В является причиной А; А и Б взаимовлияют друг на друга; А и Б находятся под влиянием третьей переменной». Характер взаимодействия этих двух переменных может быть определен с помощью, так называемой, таблицы взаимной сопряженности признаков, в которой можно представить, например, отношения между возрастом избирателей и их голосованием за ту или иную политическую партию на выборах в парламент той иди иной страны[2].

Множественный анализ применяется при исследовании политических ситуаций с тремя и более переменными. При этом применяются регрессионная, интерактивная, путевая и многофакторная модели воспроизведения указанных ситуаций.

Регрессионная модель используется при анализе влияния двух независимых переменных величин на зависимую третью переменную; интерактивная модель фиксирует взаимодействия трех и более переменных, направленных на решение общей задачи; путевая модель «выстраивает цепочку прямых и не прямых воздействий одной переменной на другую»; многофакторная модельвоспроизводит взаимодействие многих переменных – явных и скрытых. Суть многофакторного анализа «состоит в ответе на вопрос: не находится ли система переменных, связанных между собой, в зависимости от двух (или более двух) базовых скрытых факторов? Следовательно, целью многофакторного анализа является обнаружение скрытых факторов»[3].

Указанные модели множественного анализа воспроизводят разный, порой довольно сложный, характер взаимодействия элементов политических процессов и широко применяются при их исследованиях.

Сторонники гуманитарных методов исходят из того, что жестко формализованные количественные методы изучения политических явлений и процессов не позволяют получить о них целостное представление – в лучшем случае удается собрать более или менее адекватные данные об их объективных сторонах. Субъективные же их стороны, т.е. различные проявления духовного мира субъектов политических процессов, остаются недостаточно изученными. Количественный подход к их изучению нередко приводит лишь к схематическим и малосодержательным представлениям об интеллектуальной, эмоциональной и волевой сторонах политической деятельности субъектов, системе их мотиваций и ценностных ориентаций.

Поэтому при исследовании политических явлений и процессов целесообразно сочетать количественные статистические и качественные гуманитарные подходы, которые названы гуманитарными потому, что центром анализа указанных явлений и процессов являются люди – субъекты политической деятельности. Человек (отдельная личность или участник социальных групп) характеризуется как центральное звено политических процессов. Его политическая активность определяется богатством его духовного мира, и прежде всего его политическими интересами, целями, ценностными ориентациями. Получить о них более или менее полное представление можно, лишь сочетая количественные статистические методы с гуманитарными, качественными.

«Качественные методы – это общее название широкого спектра техник сбора и анализа информации, таких как включенное наблюдение (открытое и скрытое), интенсивное интервьюирование (глубинные индивидуальные и групповые интервью) и т.д.»[4].

В свое время М. Вебер высказал идеи понимающей социологии, т.е. стремление понять не только объективное содержание деятельности людей и ее социальных последствий, но прежде всего субъективные мотивы их деятельности, а также смысл тех духовных ценностей, которыми руководствуются действующие субъекты[5]. Более глубокое их постижение характеризует качественную сторону социологических исследований различных явлений, в том числе политических.

Даже в ходе наблюдения за деятельностью субъектов политической деятельности исследователь может немало узнать об их духовном мире. «В зависимости от роли наблюдателя в изучаемой ситуации различают четыре вида наблюдения: полное участие наблюдателя в ситуации; участник ситуации как наблюдатель; наблюдатель как участник; полностью наблюдатель»[6].

Полное участие наблюдателя в изучаемой им ситуации заключается в его непосредственном включении в нее вместе с другими ее участниками, которые не поставлены в известность об этом. Происходит скрытое включенное наблюдение за развитием ситуации и поведением ее участников.

Ситуация «участник ситуации как наблюдатель» предполагает открытую включенность наблюдателя в группу и его активную деятельность в ней. В этом случае наблюдателю легче выполнять свои обязанности, тем более, если наблюдаемый коллектив положительно воспринимает цели исследования.

Наблюдатель как участник, так или иначе взаимодействуя с другими участниками изучаемого процесса, проводит в основном открытое социологическое наблюдение за их деятельностью. Его собственная роль в их совместной деятельности сведена до минимума.

Позиция полного наблюдения означает, что «исследователь выполняет лишь функцию наблюдателя, не взаимодействуя с участниками ситуации и оставаясь вне их поля зрения»[7].

Все эти социологические способы включенного наблюдения (скрытого и открытого) применяются в политологических, чаще всего прикладных, исследованиях в зависимости от их целей и содержания.

Широко используется и такой гуманитарный метод, как интенсивное интервьюирование политических и других деятелей, имеющий много сходства с рассмотренным методом интервью. Однако в ходе интенсивного интервьюирования респонденты могут свободно выражать свои мысли на привычном им языке и высказывать собственные суждения относительно обсуждаемых вопросов[8]. Это напоминает свободный и творческий диалог двух собеседников, в ходе которого не только передается соответствующая информация, но и полнее открываются мотивы поведения и деятельности респондентов, их политические установки и ценностные ориентации, формирующиеся на социально-психологическом и идеологическом уровнях.

Методы экспертных оценок

Характеристику этих методов, которая рассмотрена в параграфе 2.7, следует в полной мере учитывать при исследовании политических явлений и процессов. Как и в других случаях, при их исследовании применяются такие формы экспертных опросов, как разовый индивидуальный опрос, однократный коллективный опрос, индивидуальный опрос в несколько туров (метод Дельфи) и коллективный опрос в несколько туров.

Исключительно важное значение имеет подбор квалифицированных и добросовестных политических экспертов, способных давать глубокие компетентные заключения, не поддаваясь политическому и идеологическому давлению со стороны кого бы то ни было, что не легко.

Как уже говорилось, в анализе политических явлений и процессов поиск истины часто происходит под сильным влиянием политических интересов тех или иных социальных сил и нередко политических интересов самих экспертов. В этих случаях бывает довольно сложно объективно исследовать политическое явление и делать столь же объективные заключения.

Особенно это касается исследований политических явлений, ибо последние оказывают определяющее влияние на многие стороны жизни общества, и уже поэтому давление интересов различных социальных сил при решении политических проблем бывает очень мощным. Но именно эти силы часто выступают заказчиком исследований политических явлений и процессов. Поэтому не случайно появляются ошибочные, а иногда и предвзятые заключения экспертов по различным политическим проблемам, неверно отражающие суть дела, а то и фальсифицирующие его. Все это свидетельствует о том, что не только уровень квалификации, но и идеологические ориентации и моральные качества экспертов являются важными факторами осуществления экспертного изучения различных политических явлений, складывающихся ситуаций и в целом политических процессов.

В настоящее время при их анализе чаще всего прибегают к таким формам экспертного опроса, как устный опрос высококвалифицированных специалистов, среди которых могут быть профессиональные политики, в том числе крупные государственные деятели, а также так называемый круглый стол, за которым ведут творческую дискуссию теоретики и практические политические деятели.

Читать еще:  Анализ ассортимента структуры и качества продукции

Нередко за круглым столом или в иной обстановке применяется такой способ коллективной генерации идей и решений, как рассмотренный ранее «мозговой штурм».

При необходимости исследователи прибегают и к индивидуальным заочным опросам экспертов в несколько туров (так называемому методу Дельфи), а также к коллективному опросу экспертов в несколько туров. Во всех случаях точность и надежность прогнозов относительно исследуемых политических явлений и процессов обусловлена такими факторами, как тщательный отбор экспертов, возможность проверки их выводов и рекомендаций другими способами (системного анализа, сравнительного метода, моделирования и т.д.).

В настоящее время методы экспертных оценок широко применяются при исследовании политических явлений и процессов и в той или иной мере способствуют их всестороннему анализу, однако для повышения эффективности их использования они должны быть соответствующим образом организованы

Методика анализа данных

Подход к решению

При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?

Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа «вход – выход», каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.

В результате они вынуждены использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: «Похожие входные ситуации приводят к похожим выходным реакциям системы». Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.

В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас называют Data Mining, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой – то степени приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически термин Data Mining – это попытка узаконить физический подход в отличие от математического к решению задач анализа данных. Что же мы вкладываем в понятие «физический подход»?

Это такой подход, при котором аналитик готов к тому, что анализируемый процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих аналитических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.

Общая схема работы при этом выглядит следующим образом:

Таким образом, данный подход подразумевает, что:

  1. При анализе нужно отталкиваться от опыта эксперта.
  2. Необходимо рассматривать проблему под разными углами и комбинировать подходы.
  3. Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
  4. Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
  5. По прошествии времени и накоплению новых сведений нужно повторять цикл – процесс познания бесконечен.

Пример работы

В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в новостройках, другими словами, количественную зависимость цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

  • Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, «хрущевками», рынками и т.д.); экология района (близость к лесопарковым массивам))
  • Местоположение квартиры (этаж – первые и последние этажи дешевле; секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света – северная сторона дешевле; вид из окон).
  • Тип дома (самая популярная серия П-44Т).
  • Площадь квартиры.
  • Наличие лоджий (балконов)
  • Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).
  • Наличие отделки («черновая» отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
  • Телефонизация дома.
  • Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных мест)).
  • Кто продает квартиру («из первых рук» (инвестор, застройщик) или посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).

Это далеко неполный перечень, но и он повергает в уныние. Вот тут-то очень кстати приходится высказывание Р. Фейнмана («можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью»). Для начала из имеющейся истории продаж мы ограничились данными для одного района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный метр, по которой продавались квартиры. Получилась вполне обозримая таблица с разумным количеством входных факторов.

На этих данных обучили нейросеть, то есть построили довольно грубую модель. При всей своей приблизительности у нее было одно существенное достоинство: она правильно отражала зависимость цены от учитываемых факторов. Например, при прочих равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь совершенствовать, делать более полной и точной.

На следующем этапе в обучающее множество были добавлены записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов стали учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке недвижимости, имели возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска более совершенной модели сводился к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.

Это пример, как нам кажется, довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом – наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения информации, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса. Но данная тема выходит за рамки статьи.

Вывод

Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?

Ссылка на основную публикацию
Adblock
detector