Каталог курсов

Курсы High Tech

BigData

Практическое применение Big Data Аналитики для решения бизнес-задач


Продолжительность: 32 ч    

Описание курса

Длительность курса 32 академических часа, при этом 4-х дневный курс проводится в течение 8 дней (по полдня).

ОПИСАНИЕ:
-------------
Этот курс с тренером (формат онлайн) дает возможность слушателям получить навыки решения реальных бизнес-кейсов на аналитической платформе, используя современные инструменты стека Big Data, принимать управленческие решения на основе ценных инсайтов, построив собственный аналитический ETL-конвейер для работы с корпоративными хранилищами и озерами данных.

Аналитика больших данных в бизнесе позволяет оперативно принимать управленческие решения, прогнозируя и предупреждая любые внештатные ситуации, современный бизнес переходит к парадигме data-driven управления, что в режиме реального времени выявляет отклонения в технологических или производственных процессах и своевременно предупреждает сбой.
С коммерческой точки зрения потоковая аналитика больших данных позволяет "на лету" понять потребности каждого своего клиента и сформировать для него персональное коммерческое предложение в соответствии с потребностями и возможностями конкретного человека.
Эти и другие кейсы можно реализовать, используя современные аналитические платформы, которые собирают исходные данные из разных источников, очищают и обогащают их, чтобы загрузить в корпоративное хранилище или озеро, откуда их будут потреблять аналитические приложения и BI-системы. Также при этом задействованы конвейеры потоковой и пакетной обработки данных на основе множества открытых и проприетарных технологий: Apache Kafka, AirFlow, NiFi, Spark, Flink, Greenplum, Snowflake, реляционные базы данных и NoSQL-хранилища.

Курс позволит участникам реализовать настоящий бизнес-кейс на аналитической платформе, познакомиться на практике с основными инструментами Big Data, узнать их назначение и место в архитектуре аналитической платформы.

Аудитория:
--------------------------------------
* ИТ-архитекторы, которые выбирают концепцию построения хранилищ данных и конкретные сервисы для решения задач бизнеса;
* технические директоры, которые оценивают решения с точки зрения стратегии развития компании в плане IT-технологий;
* дата-инженеры, разработчики и системные администраторы, которые будут непосредственно участвовать в реализации проектных решений;
* аналитики данных, которым интересна архитектура используемой инфраструктуры.

Предварительный уровень подготовки:
--------------------------------------------
* опыт написания SQL запросов
* работа с командной строкой linux.

Программа курса

1. Постановка бизнес-задач и знакомство с BigData архитектурой

Определяем бизнес-потребность.
Формируем ключевые требования к решению, которое позволит удовлетворить бизнес-потребность и принести ценность.
Теория по архитектуре аналитического приложения BigData

Практическая часть: построение архитектуры анализа данных в зависимости от бизнес кейсов

2. Инструменты для анализа больших данных

Описание инструментов для анализа больших данных Spark, Hive, Dask и др.

Практическая часть: анализ данных с помощью Spark/Hive

3. DWH хранилища данных, слои накопления данных (stg, ods, dds, dim, mart)

Предназначение концептуальных слоев накопления данных
Очистка и трансформация данных
Batch загрузка данных
Stream загрузка данных

Практическая часть: загрузка данных различными способами

4. Способы организации хранения сырых данных (stg слой)

Теоретическое описание слоя хранения данных и его принципов
Big Data репозиторий, HDFS и форматы хранения данных
EDW концепция, преимущества и недостатки
NoSQL подход к хранению данных

Практическая часть: демонстрация работы с файлами в HDFS и S3


5. Инструменты для управления процессами обработки и перемещения данных. Часть 1

Введение в Airflow.

Практическая часть: настройки и демонстрация работы Airflow на примере простых задач

6. Инструменты для управления процессами обработки и перемещения данных. Часть 2

Создаем пайплайн премещения данных с помощью airflow

Практическая часть: реализации пайплайна обработки и перемещения данных с помощью Airflow

7. BI инструменты для аналитика данных

OLAP/OLTP базы данных. BI инструменты (SuperSet, PowerBI, и др.), их архитектура и область применения.

Практическая часть: построение дашбордов в BI инструменте

8. Введение в ML

Кейсы использование ML
Разбор модели кейса

Практическая часть: встраивание модели в pipeline обработки данных