Рассказываем об основах популярной технологии бизнес-аналитики.
Хранилища данных можно разделить на три основных типа: SQL (реляционные), NoSQL (нереляционные) и OLAP. Они различаются между собой структурой хранения информации и областью применения.
OLAP-системы используются реже всего. Но без них не обойтись, если компания планирует работать с аналитическими системами, постоянно обрабатывающими огромные объёмы данных — терабайты и петабайты информации.
Что такое OLAP
Звучит сложно, но давайте посмотрим на работу OLAP в жизни. Представим, что в агентстве недвижимости аналитикам необходимо оценить количество продаж и их доходность, чтобы выявить самые выгодные сделки за последний год. Благодаря этому они смогут понять, какие факторы влияют на стоимость недвижимости, а значит, и на прибыль компании, чтобы их оптимизировать.
Выгружать данные вручную долго, так как информация о сделках и финансовые показатели компании хранятся в разных хранилищах. Аналитику придётся вручную доставать нужные данные и пытаться найти между ними взаимосвязи.
OLAP-системы автоматизируют этот процесс и могут работать с разными хранилищами, содержащими разные типы данных, формируя общую выгрузку с учётом заданных критериев. И это не всё. После выгрузки информацию можно визуализировать для отчёта или поиска взаимосвязей между показателями.
Всё это возможно благодаря способности OLAP преобразовывать данные в OLAP-кубы и работать с ними.
Что такое OLAP-куб
В OLAP-системах информация хранится либо в реляционных базах, либо в виде специальных многомерных OLAP-кубов. Причём исходные данные для построения последних могут браться из обычных БД.
Разберём эту структуру на примере агентства недвижимости. Компания может хранить информацию о сделках в виде обычной таблицы с фамилиями риелторов и числом заключённых ими договоров. На выходе получаются привычные строки и столбцы:
Таблица с информацией о риелторах и числе их сделок.
Иллюстрация: Skillbox Media
Но представим, что мы хотим посмотреть на то, как сделки каждого риелтора разбиты по месяцам года. Добавим в схему третье измерение:
OLAP-куб, объединяющий три показателя.
Иллюстрация: Skillbox Media
Это уже простой OLAP-куб с тремя показателями. Его можно усложнять и дальше, добавляя новые метрики. Например, информацию о месторасположении недвижимости по районам города.
OLAP-кубы бывают разные. Некоторые из них хранят в себе и первичные данные, и результаты их предварительной обработки. А некоторые — только полученные после предварительного анализа агрегаты данных. При этом исходная информация хранится в связанных с кубом таблицах.
OLAP-куб используется для получения срезов данных по своим измерениям. Благодаря этому аналитик получает возможность не собирать информацию вручную из разрозненных таблиц, а обращаться только к одному источнику.
При этом такие срезы по разным показателям формируются автоматически при предварительной обработке данных. Это ускоряет выполнение запросов к хранилищу.
Какие типы OLAP существуют
В OLAP-системах используют один из трёх вариантов хранения данных: MOLAP, ROLAP или HOLAP. Рассмотрим каждый из них.
Но у подхода есть ограничение. Результат предварительной обработки данных — это таблицы, которые занимают большой объём памяти на сервере. Поэтому если первичной информации много, то MOLAP может не подойти.
Из чего состоит OLAP-система
В любой OLAP-системе есть несколько компонентов: хранилище, ETL-инструменты, сервер и аналитические инструменты.
Преимущества OLAP
Популярность технологии оперативной обработки данных связана с её особенностями:
Где используется OLAP
OLAP — это инструмент, используемый в Business Intelligence. Такие системы собирают информацию из разных источников, обрабатывают её и представляют в виде удобных отчётов.
Что можно сделать с помощью OLAP:
- изучить потребности клиентов и оценить востребованность товаров в онлайн-магазине;
- оценить эффективность логистики и оптимизировать маршруты;
- управлять ресурсами компании, находя свободные и предупреждая их дефицит с помощью изменений в закупках;
- подготовить финансовые, товарные и другие виды отчётов;
- найти причины снижения выручки и прибыли, определить механизмы их устранения и так далее.
Поэтому технология оперативной аналитической обработки данных используется для решения различных задач в:
- складском учёте товаров;
- онлайн- и офлайн-продажах;
- организации логистики товаров;
- маркетинговых исследованиях;
- учёте качества обслуживания клиентов и других.
Что запомнить
Подведём итоги того, что мы сегодня узнали:
- OLAP (оперативная аналитическая обработка данных) — это BI-технология, позволяющая в режиме реального времени анализировать данные, полученные из разных источников.
- В её основе лежат OLAP-кубы — многомерные массивы данных, объединяющие в себе информацию из большого числа таблиц с её предварительной обработкой.
- OLAP-системы используются в логистике, онлайн- и офлайн-продажах, работе с клиентами и других сферах, где требуется собирать и анализировать большой объём данных для поиска лучших бизнес-решений.
Выражаясь простыми словами, срез можно назвать фильтрацией. То есть данные отбираются по одному или нескольким признакам. Например, мы можем отобрать риелторов с количеством продаж больше двух на протяжении двух месяцев.
Таблица SQL — это базовый элемент реляционной базы данных, состоящей из строк и столбцов. Для запросов к ней используется SQL — язык программирования, предназначенный для создания, модификации и получения информации из БД.