Анализ данных науки, образования и инновационной деятельности с использованием методов анализа паттернов по регионам Республики Казахстан за 2003-2012 гг.

Анализ паттернов - это новая область ана­лиза данных, связанная с поиском взаимосвязей исследуемых объектов, построение их класси­фикации и исследованием развития объектов во времени. Задачей анализа паттернов является разбиение заданной выборки объектов на под­множества, называемые паттернами, так, чтобы каждый паттерн состоял из схожих объектов, а объекты разных паттернов существенно отли­чались. То есть любой паттерн отражает такие существенные характеристики класса объек­тов, которые выделяют объекты этого паттерна среди всей остальной совокупности. Отличием методов анализа паттернов является работа с совокупностью всех признаков и умение соот­носить в один паттерн объекты, имеющие раз­ные количественные характеристики, но оди­наковую внутреннюю структуру показателей и взаимосвязей между ними. Более того, с учетом этой особенности анализ паттернов позволяет находить скрытое взаимовлияние показателей, выявлять тренды изменения таких показателей и находить показатели, сигнализирующие о не­типичной динамике объекта [1]. 

С учетом того, что для динамического ана­лиза паттернов необходимо иметь данные по всем показателям за выбранный промежуток времени, решено использовать данные лишь по 10 годам: 2003-2012 гг. Далее все показате­ли Zxi (индекс х относится к объектам-регионам) были преобразованы аналогично [2] и получены нормированные показатели по всем блокам со­гласно формуле:

паттерны

На основе этих показателей были рассчита­ны значения Блоков 1-6 как среднее арифмети­ческое всех нормированных показателей, входя­щих в этот блок.

При выборе базовой системы показателей необходимо помнить о том, что в признаковых описаниях объекта должны быть отражены все существенные стороны объекта. Как правило, чтобы не упустить важных для анализа данных показателей, на первом этапе составляется рас­ширенный список показателей и затем из него исключаются менее значимые признаки. В слу­чае присутствия «лишних», незначимых при­знаков увеличивается время работы метода и расход ресурсов для обработки данных. Кроме того, в этом случае также возникает проблема адекватности полученных результатов [1].

Корреляционный анализ позволяет выбирать наименее взаимозависимые коэффициенты, что повышает адекватность представления объектов паттернами данных и увеличивает точность раз­биения по классам. Наличие корреляции между показателями говорит о статистической взаи­мосвязи между ними, т.е. изменения значений одного показателя сопровождаются изменением значений другого показателя. Таким образом, наличие сильно коррелированных индикаторов не приносит никакой существенной пользы с точки зрения описания объектов, повышает раз­мерность входных данных для анализа паттер­нов и приводит к неустойчивости паттернов, по­лученных на основе такой системы показателей.

Для обнаружения статистической взаимос­вязи показателей существует несколько видов несколько коэффициентов корреляции: кова-риация и линейный коэффициент корреляции, коэффициент ранговой корреляции Кендалла, коэффициент ранговой корреляции Спирме-на, коэффициент корреляции знаков Фехнера и проч. Имеющиеся данные являются количе­ственными, поэтому мы использовали линейный коэффициент корреляции при анализе. Линей­ный коэффициент корреляции представляется собой нормированную на стандартные отклоне­ния ковариацию, поэтому он лишен ее главного недостатка - наличия размерности [1].

Как оказалось, все блоки можно считать не­коррелированными (табл. 1).

Можно сказать, что на основании выбран­ной базовой системы показателей получена ком­плексная оценка развития и результативности науки, образования и инновационной деятель­ности в каждом регионе Казахстана, причем в динамике за 10 лет. Каждому из исследуемых объектов-регионов поставлен в соответствие вектор признаковых описаний, составленный из 6 агрегированных показателей (Блок 1, Блок 2, Блок 3, Блок 4, Блок 5 и Блок 6). Каждый из этих показателей представляет собой число от 0 до 1, все показатели являются некоррелированными. 

Корреляция между блоками показателей для 2003 г.

Согласно методу анализа паттернов, имею­щиеся признаковые описания объектов нужно представить в системе параллельных координат, заменив точки в пятимерном пространстве при­знаков на ломаные, построенные следующим образом: на оси абсцисс откладываются номера показателей, которые характеризуют структуру объекта, ось ординат представляет собой ось значений этих показателей. Для каждого объек­та мы имеем набор точек, соответствующий его структуре. Кусочно-линейная функция паттерна строится путем соединения этих точек прямы­ми линиями. Такая процедура производится для каждого объекта анализа. 

Примеры   полученных кусочно-линейных функции приведены на рис. 1 и рис. 2. Стоит от­метить, что здесь и на всех последующих рисун­ках справа могут быть отмечены не все, а лишь часть регионов, представленных на рисунке.

Кажущееся хаотичным нагромождением из­ломанных линий при ближайшем рассмотрении проявляет некоторые закономерности и видно, что многие регионы имеют если неравные, то очень схожие соотношения параметров. Логич­но считать, что регионы, имеющие приблизи­тельно одинаковую форму такой кусочно-ли­нейной функции, имеют и схожую структуру показателей в признаковых описаниях, а значит, и схожи в выбранной модели развития науки, об­разования и инновационной деятельности. 

Кусочно-линейные функции, описывающие объекты, для 2003 г.

 Результаты анализа. Учитывая, что целью работы является динамический анализ поведе­ния регионов, то полученные кусочно-линейные кривые для каждого года были объединены в об­щую выборку. Итого получилось 16 х 10 = 160 объектов для кластеризации.

 Мы использовали два метода кластериза­ции: k-средних и иерархический метод класте­ризации, в каждом из которых использовалась евклидова метрика, и проводили многошаговую процедуру кластерного анализа, комбинируя два вышеупомянутых метода. В результате было по­лучено 33 паттерна данных, включающих более двух объектов внутри паттерна.

Динамический анализ паттернов позволяет отследить, какому паттерну из вышеописанных следовал каждый из регионов в исследуемые 10 лет, на основе траекторий развития объекта и динамических групп.

Траектория развития объекта - это опреде­ленное чередование паттернов, которое полно­стью описывает изменение направления раз­вития объекта на рассматриваемом горизонте анализа. Динамическая группа - это совокуп­ность объектов, характеризующаяся идентич­ными траекториями развития. Все элементы динамической группы одинаково реагируют на изменения внешней среды и характеризуются схожими стратегиями развития. В данном иссле­довании мы выделили только группу абсолютно устойчивых регионов.

Все данные приведены в табл. 2. 

Динамический анализ паттернов

  Этот метод уже успешно зарекомендовал себя при решении таких разноплановых задач, как анализ банковской сферы, разработка про­цедуры банкротства кредитных организаций, принятие решений в менеджменте и управлении персоналом, исследовании уровня поддержки политических партий на основании результатов выборов и т.д. 

Применение анализа паттернов к данным на­уки, образования и инновационной деятельно­сти представляет огромный интерес как с иссле­довательской, так и с прикладной точки зрения.

Анализ паттернов и динамический анализ паттернов данных решает такие задачи, как:

  • -    проведение классификации данных науки, образования и инновационной деятельности на основании различных характеристик;
  • -    исследование траекторий развития най­денных паттернов данных с течением времени и рассмотрении их в динамическом развитии;
  • -     построение классификации объектов с учетом их специфики и тенденций измерения.

 В результате исследования были изучены характеристики регионов Казахстана по таким показателям как уровень социально-экономи­ческих условий, потенциал и результативность науки, образования и инновационной деятель­ности в динамике за 10 лет с 2003 по 2012 г. 

Получена классификация регионов по схо­жести внутренней структуры указанных пока­зателей, также построены траектории развития регионов с течением времени и найдены группы регионов, придерживающихся выбранной стра­тегии.

Несомненный интерес представляет исполь­зование полученной информации для дальней­шего решения следующих задач [1]:

  1. Выявления неявно выраженного взаимно­го влияния индикаторов.
  2. Определения характерных векторов на­правленности индикаторов и их квалитативная оценка для различных аналитических измерений:
  • разных видов экономической деятельно­сти;
  • высоко-, средне-, и низкотехнологичных отраслей;
  • регионов-доноров и дотационных регио­нов;
  • форм собственности предприятий.
  1. 3)  Выявления трендов изменения индикато­ров (показателей, рассчитываемых в ходе агрега­ции и преобразования статистических данных).
  2. 4)  Идентификации взаимного влияния траек­торий развития.

  

Литература

  1. Анализ данных науки, образования и инновационной деятельности с использованием методов анализа паттернов : препринт WP7/2012/07 [Текст] / Ф.Т. Алескеров, Л.М. Гохберг, Л.Г. Егорова, А. Л. Мячин, Г.С. Сагиева ; Нац. исслед. ун-т «Высшая школа экономики». - М. : Изд. дом Высшей школы экономики, 2012.
  2. Рейтинг инновационного развития субъектов Российской Федерации: аналитический доклад / под ред. Л.М. Гох -берга. М.: Национальный исследовательский университет «Высшая школа экономики», 2012.
Фамилия автора: К.С. Мухтарова, А.Т. Мылтыкбаева
Год: 2014
Город: Алматы
Категория: Экономика
Яндекс.Метрика