Технология хранилища данных в системах поддержки принятия решений

В данной статье описана технология использования хранилища данных данных в системах поддержки принятия решений на предприятиях для анализа и дальнейшей обработки с целью принятия решения.

На сегодняшний день одним из наиболее перспективных направлений в развитии информационных технологий являются системы поддержки принятия решений. Системы поддержки принятия решений базируются на следующих технологиях: оперативные базы данных, хранилища данных, системы оперативной аналитической обработки информации и интеллектуальный анализ данных. В то же время классические методы поддержки принятия решений в большинстве своем, хоть и разработаны довольно давно и получили широкое распространение, не имеют под собой четкого математического обоснования.

В связи с этим, в современных системах управления организациями на любом уровне используются не только системы хранения информацией, но и средства для дальнейшей оперативной аналитической обработки OLAP (OnLine Analytical Processing). Основная идея технологии OLAP заключается в построении многомерных кубов данных, в ячейках которого хранятся анализируемые данные, например, это могут быть объемы продаж конкретного предприятия. Измерения этих данных представляют собой совокупности значений других данных, например названий групп товаров и даты продаж. На примере двумерного куба мы получаем таблицу, которая в свою очередь показывает значения уровней продаж, разделенных по товарам и датам. Для того чтобы значительно увеличить скорость доступа к данным, OLAP-кубы содержат также и агрегированную информацию. В общем случае OLAP-кубы содержат более трех измерений. Для удобного доступа к данным и уточнения информации аналитик может в любой момент времени осуществить определенные действия с OLAP-кубом.

  • Срез (Slice) - получение подмножества данных, удовлетворяющих определенному условию, например, получить все поставки или все издержки на хранение определенного товара в регионе.
  • Вращение (Rotate) - изменение расположения измерений, представленных в отчете или на отображаемой странице.
  • Детализация (Drill Down) и Консолидация (Drill Up) - операции, которые определяют переход на уровень более детальных и агрегированных данных соответственно. При этом происходит переход по иерархиям измерений. Например, можно выполнить детализацию по измерению "Дата" с уровня "Год" на уровень "Месяц" или консолидацию с уровня "Город" на уровень "Область". С помощью этой технологии аналитик может исследовать ситуацию в целом, а затем сконцентрировать свое внимание на каком?либо конкретном бизнес?объекте.

Основными понятиями многомерной модели данных являются:

  1. Показатель - это величина (обычно числового типа), которая является предметом анализа. Это, например, объём продаж некоторого товара,или выручка от продаж товара. Один OLAP-куб может обладать одним или несколькими показателями;
  2. Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя. Измерение принято визуализировать в виде ребра многомерного куба.

Объекты, совокупность которых образует измерение, называются членами измерений (members). Члены измерений визуализируют как точки или участки, откладываемые на осях гиперкуба. 3. Ячейка (cell) - мельчайшая структура куба, соответствующая конкретному значению некоторого показателя. Ячейки при визуализации располагаются внутри куба и здесь же принято отображать соответствующее значение показателя

Вместе с базовой технологией существуют три основных типа OLAP-приложений:

-MOLAP (Multidimensional OLAP, Многомерный OLAP) - это классиче-ская форма OLAP, данные хранятся в виде упорядоченных многомерных массивов, MOLAP содержит уже агрегированные показатели, тем самым значительно ускоряет работу с OLAP?кубами;

ROLAP (Relational OLAP, Реляционный OLAP) работает напрямую с ре-ляционными базами данных, для хранения агрегатов создаются дополнительные реляционные таблицы, благодаря такой схеме хранения данных ROLAP доста-точно просто реализовать на основе обычного хранилища без каких-либо допол-нительных действий;

HOLAP (Hybrid OLAP, Гибридный OLAP) использует реляционные таблицы для хранения атомарных данных и многомерные массивы для агрегатов.

Целью использования OLAP -систем является предоставление ранее проанализированных данных, которые будут доступны по запросу пользователя в удобном виде для дальнейшего принятия решений. Исходные данные, а так же запросы хранятся в специализированных реляционных базах данных, которые называют хранилищами данных (ХД либо Data Warehouse). Хранилища данных в отличие от оперативных баз данных OLTP (On-Line Transaction Processing), работающих с приложениями, имеют некоторые функциональные ограничения, что позволяет уменьшить время выполнения запросов. Отличия ХД от обычной базы данных :

  • обычные базы данных (БД) предназначены для помощи в выполнении повседневной работе, а ХД для принятия решений;
  • обычные БД подверженны постоянному изменению данных, ХД в свою очередь выполняют обновление базы согласно предписанному времени без изменения предыдущих данных;
  • обычные БД чаще всего являются источником ХД, а ХД могут также пополняться из других внешних источников;
  • зачастую ХД имеет ненормализованную структуру, что позволяет заметно увеличить скорость выполнения запросов.

Ральф Кимбалл, один из авторов концепции хранилищ данных, сформулировал и основные требования к хранилищам данных:

  • поддержка высокой скорости получения данных из ХД;
  • поддержка внутренней непротиворечивости данных;
  • возможность получения и сравнения так называемых срезов данных (slice and dice);
  • наличие удобных утилит просмотра данных в ХД;
  • полнота и достоверность хранимых данных;
  • поддержка качественного процесса пополнения данных.

На сегодняшний день системы аналитической обработки информаций применяются в крупных организациях таких, как банковские структуры и государственные органы и продолжают развиваться. Проанализировав существующие системы аналитической обработки, на сегодняшний день можно выделить ряд функций и свойств, которые должны быть у OLAP-системы :

  • оптимизированное высокоскоростное выполнение запросов для получения данных из ХД;
  • наличие удобного интерфейса для просмотра данных в ХД;
  • наличие утилит для удобного добавления данных в ХД;
  • полнота и достоверность информаций хранимых в ХД.

Одним из основных принципов построения ХД является использование единой структуры метаданных: системные таблицы хранилища данных имеют жестко заданную структуру, а содержащаяся в них информация четко описывает модель данных ХД, в соответствии с которой загружаются и обрабатываются классификаторы и данные. Таким образом, это позволяет начать построение универсальных программных компонентов, взаимодействующих с ХД.

Средства OLAP-технологии, ориентированные на многомерный анализ, не могут быть непосредственно использованы для извлечения информации. Необходим многоцелевой язык гибких запросов, который должен облегчить хранение и извлечение изменяющейся во времени информации.

Многомерное моделирование хорошо подходит для малых ХД - так называемых "витрин данных" (Data Marts). Витрина данных может содержать только частичную историю данных или только данные в установленные сроки (установленный временной интервал). Поэтому необходимо не только извлекать темпоральные данные, но и преобразовать битемпоральные данные в структуры данных только с одной темпоральной размерностью.

Прежде всего, система должна управлять обеими темпоральными размерностями, то есть действительным и транзакционным временем. Однако не все объекты будут иметь такую битемпоральную сущность. Важно отметить, что данные в ХД поступают из независимых разнородных источников и затем интегрируются. Допустимо, что некоторые из источников поддерживают только транзакционное время для своих экземпляров. Возможно, что для некоторых других экземпляров вообще никакая темпоральная информация не должна храниться (например, скорость света всегда имеет постоянное значение). Таким образом, в системе должны присутствовать средства оперирования различными типами темпоральных объектов и атрибутов.

Кроме того, независимо от темпоральной размерности, в ХД должны поддерживаться различные темпоральные структуры - моменты и интервалы времени, а также наборы моментов и интервалов, как это предусмотрено в ТБД. Также могут быть полезны так называемые "календари", отображающие человеческую интерпретацию цикличности времени. В работе рассматриваются календари, построенные на основе реляционных таблиц и используемые в задачах анализа данных для сравнения разных периодов времени, на основании их характеристик.

Метка времени (timestamp) - значение, связанное с каким-либо объектом или значением атрибута. Неразложимый временной интервал некоторой фиксированной минимальной продолжительности называется квантом времени, или хрономом (chronon). Размер каждого хронома в контексте метки времени называют гранулярностью. По причине наличия различных источников данных, система должна поддерживать использование различных (нескольких) гранулярностей (например, можно собирать данные ежедневно, еженедельно, ежемесячно и т.д.). Заметим, что если выбирать наиболее грубую из доступных гранулярности, чтобы интегрировать данные, то можно потерять детали/частности (что, очевидно, нежелательно с точки зрения аналитиков, которые будут требовать информацию как можно более подробно), или, наоборот, выбор для интеграции наиболее тонкой грануляции, может привести к хранению избыточной информации

Не всегда в рамках одной системы компания получает требуемое, поэтому для решения данной задачи применяются целый ряд программных продуктов. Одни из которых позволяют хранить информацию и составляют собой саму систему хранения, вторые - просматривать, третьи - добавлять информацию в ХД. Такой подход может привести к конфликту программных продуктов по несовместимости форматов и требует интеграции систем, что отнимает существенно больше времени. Наиболее конфликтным сегментом является сбор информации и последующая его конвертация, которая проходит в разных форматах, что приводит к несовместимости. Для преодоления данного конфликта, сбор и последующие действия должны выполняться в едином формате.

Совокупность большого количества данных со временем представляет собой ценность, выступая в роли источника дополнительной информации в виде закономерностей и тенденций, позволяющие принимать определенные управленческие решения. Примерами подобных данных могут быть любые информации и сведения о том, как зависят продажи определенного товара от дня или недели, года, какие товары покупатели чаще всего приобретают, пол и возраст клиента. Подобные данные обычно используется при стратегическом планировании, анализе рисков, прогнозировании, и ценность ее для предприятия очень высока. Data Mining (Добыча данных) - это термин который обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов. Data Mining (или Добыча данных) - это процесс обнаружения нетривиальных, полезных и доступных к интерпретации знаний, необходимых для принятия решений в различных сферах деятельности человека.

Синергические решения появляются при разработке новых безопасных технологий в поиске и устранении или защите наиболее уязвимых мест, конструировании оригинальных устройств. Соединение структурно?функционального и процессного управления, а также интеграция "жестких" - информационных и инжиниринговых - технологий и "мягких" методов снижает зависимость компании от конкретных исполнителей и одновременно мотивирует персонал, повышает управляемость компании, обеспечивает предсказуемость и устойчивость деятельности. В настоящее время существуют 5 крупнейших корпораций, предлагающие BI?решения, известные своей функциональностью и надежностью, например, Oracle после поглощения компаний, таких как IBM (Cognos), SAS Institute, Siebel, Hyperion, Sunopsis, Microsoft, SAP (Business Objects). В настоящее время существует большое количество форматов для хранения информационных ресурсов, поэтому часто стоит задача автоматизированного преобразования этих ресурсов в другие форматы хранения. Реализованная универсальная система конвертирования позволяет решать эту задачу, тем самым повышая скорость получения необходимых пользователю информационных ресурсов.

Дальнейшее развитие универсальной системы конвертирования происходит с добавлением новых модулей, а так же автоматизации процесса конвертирования, добавляя, например, элементы искусственного интеллекта или элементы текстового интеллектуального данных (Text Mining). Важно понимать, что грамотное внедрение перечисленных технологий позволит компании выйти на качественно новый уровень BI-системы и создать единое информационное пространство.

Современные информационные технологии в области бизнес-аналитики еще далеки от универсальных систем и ограничены объемом доступных ресурсов, однако на рынке сфер высокотехнологических программных решений компания Snowflake Elastic Data Warehouse предоставляет облачное хранение данных.

Облачное хранение данных является эластичной системой, которая легко расширяется по мере необходимости. Например при увеличении нагрузки на систему или объема данных. Архитектура серверов компании Snowflake позволяет хранилищам данных мгновенно расширятся или сжиматься, при этом не прерывая другие процессы. Эластичное хранилище не ограничено по размеру, позволяя работать с кластерами больших размеров и существенно уменьшая время обработки запросов. На высокопроизводительных серверах Snowflake клиенту предоставляют эластичное ХД в виде сервиса (Data Warehouse as a Service), доступ к которым осуществляется при помощи Web UI, Client commandline interface, JDBC и ODBC. В результате клиенты компании получают эластичные ХД, которая не требует создания и настройки системы все это обеспечивает система. Таким образом, это решает проблемы создания единого, удобного и гибкого комплекса программ соответсвующие всем требованиям, предъявляемые современных хранилищам данных. Целесообразность проведения дальнейших исследований в данной области подтверждается наличием высокого спроса на услуги хранения данных и аналитической обработки данных.

 

Список литературы:

  1. Кулагин В.П., Цветков В.Я., Булгакова Т.В. Особенности использования технологий OLAP для задач образовательной статистики. Геоинформационные системы, 2003, № '31(5), С. 4756
  2. https://habrahabr.ru ресурс для IT-специалистов
  3. Тихонов А.Н., Цветков В.Я. Методы и системы поддержки принятия решений. М.: МАКС Пресс, 2001.
  4. Ralph Kimball., Margy Ross. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling 3rd Edition, 2013.
Год: 2016
Город: Караганда
Категория: Экономика