В статье рассмотрены цель интеллектуального анализа данных, методы интеллектуального анализа данных, процессы развития в Казахстане.
Постановка проблемы. Вступление человечества в информационный век связано, прежде всего, с колоссальными изменениями в сфере информационной деятельности. Сегодня наша жизнь практически немыслима без компьютера, интернета и других информационных технологий, которые с каждым днем становятся все более дружественными и удобными благодаря внедрению в них новейших технологических инноваций, в частности, элементов искусственного интеллекта. Интеллектуализация, став императивом развития современных средств коммуникации, поиска информации, вычислений, обработки и анализа данных, значительно повышает доступность информационных технологий для пользователей, имеющих разные уровни компьютерной подготовки.
Цель интеллектуального анализатора решений - это определение верного предложенного решения, или нет; нахождение того, что конкретно неправильно или неполно в ответе; и, возможно, определение какие недостающие или неправильные знания могут быть ответственны за ошибку. Интеллектуальные анализаторы могут предоставлять далеко идущую обратную связь и обновлять модель. Интеллектуальный анализ имеет дело с конечными ответами на задачи.
Изменение способов обработки и анализа массивов данных, и, как следствие, получение новых знаний об исследуемых феноменах связано с привнесением в практику аналитиков новых методов и инструментов, которые появились (и продолжают появляться) в процессе становления интеллектуального анализа данных (ИАД). Поэтому перед системой встают новые задачи, обусловленные необходимостью внедрения программы, которая позволит будущим специалистам ознакомиться с новейшими достижениями в области обработки и анализа данных. При этом возникает вопрос об актуальности таких нововведений на фоне имеющихся проблем в математическом образовании.
В наше стремительно развивающееся время информационные технологии занимают значимое место. Любая технология является ключевым звеном в любой предметной области. Отличительной особенностью технологии методов интеллектуального анализа данных (ИАД) является то, что она является инструментом для специалистов, работающих в любой предметной области.
Основные результаты исследования. Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач. Модели и моделирование тесно связаны с таким базовым понятием, как система.
Система - центральное понятие в теории систем и системном анализе. Под системой принято понимать совокупность объектов, компонентов или элементов произвольной природы, образующих некоторую целостность в том или ином контексте. Каждая система несет в себе принцип эмерджентности - у системы появляются новые свойства, которые не имеют составляющие ее элементы.
Существует множество различных методов интеллектуального анализа данных, моделирования запросов, обработки и сбора информации.
Целью интеллектуального анализа данных (англ. Datamining - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных [1,2, с. 24]. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.
Классическим считается определение, данное одним из основателей направления Григорием Пятецким-Шапиро [2, с.42]: DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.
По сути, интеллектуальный анализ данных - это обработка информации и выявление в ней моделей и тенденций, которые помогают принимать решения. Принципы интеллектуального анализа данных известны в течение многих лет, но с появлением больших данных они получили еще более широкое распространение.
Большие данные привели к взрывному росту популярности более широких методов интеллектуального анализа данных, отчасти потому, что информации стало гораздо больше, и она по самой своей природе и содержанию становится более разнообразной и обширной. При работе с большими наборами данных уже недостаточно относительно простой и прямолинейной статистики. Имея 30 или 40 миллионов подробных записей о покупках, недостаточно знать, что два миллиона из них сделаны в одном и том же месте. Чтобы лучше удовлетворить потребности покупателей, необходимо понять, принадлежат ли эти два миллиона к определенной возрастной группе, и знать их средний заработок.
Эти бизнес-требования привели от простого поиска и статистического анализа данных к более сложному интеллектуальному анализу данных. Для решения бизнес-задач требуется такой анализ данных, который позволяет построить модель для описания информации и в конечном итоге приводит к созданию результирующего отчета. Этот процесс иллюстрируется на рисунке.
Процесс анализа данных, поиска и построения модели часто является итеративным, так как нужно разыскать и выявить различные сведения, которые можно извлечь. Необходимо также понимать, как связать, преобразовать и объединить их с другими данными для получения результата. После обнаружения новых элементов и аспектов данных подход к выявлению источников и форматов данных с последующим сопоставлением этой информации с заданным результатом может измениться.
Специфика современных требований к обработке информации (огромный объем данных и их разнородная природа) делает бессильными как статистические, так и экспертные подходы во многих практических областях, в том числе и экономических. Поэтому для анализа информации, накопленной в современных базах данных, методы должны быть эффективными, т.е. простыми в использовании, обладать значительным уровнем масштабируемости и определенным автоматизмом. Это концепция лежит в основе двух современных технологий Data Mining и KDD - Knowledge Discovery in Databases.
Классическое определение технологии "добычи данных" (Data Mining) звучит следующим образом: это обнаружение в исходных ("сырых") данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. То есть информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
Существуют несколько методов анализа данных. Среди них можно выделить в качестве наиболее часто используемых следующие: методы, основанные на
прогностической системе рейтингов, и методы, базирующиеся на технологии Data Mining [5, с.38].
Следствием вышеперечисленных недостатков, является низкое качество прогноза на базе рейтингов, а также большие временные, трудовые и финансовые затраты на составление прогноза.
Подход к прогнозированию на основе технологий Data Mining позволяет устранить недостатки традиционных подходов.
Подходы на основе технологий Data Mining:
- - логическая регрессия;
- - деревья решений;
- - нейронные сети [5, с. 38].
Data Mining - это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.
К этой группе относятся такие методы:
- - искусственные нейронные сети (распознавание, кластеризация, прогноз);
- - эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);
- - генетические алгоритмы (оптимизация);
- - ассоциативная память (поиск аналогов, прототипов);
- - нечеткая логика;
- - деревья решений;
- - системы обработки экспертных знаний.
Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными [3, с. 28].
Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач Data Mining.
В таблице 2 приведена сравнительная характеристика некоторых распространенных методов. Оценка каждой из характеристик проведена такими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/ нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.
Выводы и перспективы последующих разработок в данном направлении. Динамика развития экономической, социальной и общественнополитической ситуации в Казахстане предъявляет новые требования к информационно-аналитическому обеспечению управленческой деятельности как в государственном, так и коммерческом секторах [9].
Основой современной индустрии программных средств и решающим фактором успеха при создании информационно-анилитических систем является технология их создания. Информационноаналитические системы - это особый класс информационных систем, предназначенных для аналитической обработки данных, а не для автоматизации повседневной деятельности организации. Информационно-аналитические системы объединяют, анализируют и хранят как единое целое информацию, извлекаемую как из учетных баз данных организаций, так и из внешних источников. Входящие в состав информационно-аналитических систем хранилища данных обеспечивают преобразование больших объемов сильно детализированных данных в обобщенную выверенную информацию, которая пригодна для принятия обоснованных решений. В отличие от обычных баз данных хранилища содержат обработанное, упорядоченное и понятное руководителям представление данных. Хранилище данных является сборочным конвейером по подготовке информации в интегрированном, непротиворечивом, наглядном виде для поддержки принятия управленческих решений [6, с. 26].
Создание информационно-аналитических систем, реально отвечающих целям и задачам организаций, представляет собой достаточно сложный процесс, включающий этапы формирования концепций, проектирования, разработки, внедрения и сопровождения. Таким образом, необходима общая методика создания информационно-аналитических систем, содержащая состав и последовательность работ и задач, состав ролевых функций и порождаемых документов.
Очевидно, что интеллектуальные технологии раскрывают новые пути повышения качества услуг в условиях современного информационного общества. Так адаптивное представление обеспечивает индивидуальный подход, поддержка в решении задач и интеллектуальный анализ решений с интерактивной обработкой связью могут значительно сэкономить время, технологии подбора моделей могут усилить управленческие и коммуникативные аспекты.
Список литературы:
- История развития методов интеллектуального анализа данных - Data Mining. Интернет-ресурс. - Режим доступа: http:// azfor.ucoz.ru/publ/3-1-0-3.
- Марина Шапот Интеллектуальный анализ данных в системах поддержки принятия решений. Интернет-ресурс. - Режим доступа: http://www.osp.ru/ os/1998/01/179360/
- Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. - 2-е узд., перераб. и доп. - СПб.: БХВ-Петербург, 2007. - 384 с.
- Data Mining - интеллектуальный анализ данных. Электронный-ресурс. - Режим доступа: http:/ / www.iteam.ru/ publications/ it/ section_92/ article_1448/
- Вестник Южно-Уральского государственного университета. №17 (72) 2006г. Серия "Социально- гуманитарные науки" Выпуск 7 - Сборник трудов аспирантов и магистрантов (Н.Д.Жилина, Н.Б.Камаева)
- Кривко О.Б. Информационные технологии. - М., 2001. - №1 - 265с. - ISBN 5-86404-210-2
- Щавелев Л.В. Автоматизация проектирования систем оперативной обработки данных: на примере информационно-аналитических систем в энергетике: Автореф. дисс. ктн.- Иванова, 1999. - 382с. - ISBN 5-85242-524-3.
- http://ftp.csdep.mephi.ru/kiselev/ Data%20Base/DesMak/lection13.htm
- http://www.epam.kz/verticals/state/e- government-systems/ textmining.html#sthash.tKXhUjKe.dpuf