Каталог курсов
Курсы High Tech
Практическое применение Big Data Аналитики для решения бизнес-задач
Описание курса
Длительность курса 32 академических часа, при этом 4-х дневный курс проводится в течение 8 дней (по полдня).
ОПИСАНИЕ:
-------------
Этот курс с тренером (формат онлайн) дает возможность слушателям получить навыки решения реальных бизнес-кейсов на аналитической платформе, используя современные инструменты стека Big Data, принимать управленческие решения на основе ценных инсайтов, построив собственный аналитический ETL-конвейер для работы с корпоративными хранилищами и озерами данных.
Аналитика больших данных в бизнесе позволяет оперативно принимать управленческие решения, прогнозируя и предупреждая любые внештатные ситуации, современный бизнес переходит к парадигме data-driven управления, что в режиме реального времени выявляет отклонения в технологических или производственных процессах и своевременно предупреждает сбой.
С коммерческой точки зрения потоковая аналитика больших данных позволяет "на лету" понять потребности каждого своего клиента и сформировать для него персональное коммерческое предложение в соответствии с потребностями и возможностями конкретного человека.
Эти и другие кейсы можно реализовать, используя современные аналитические платформы, которые собирают исходные данные из разных источников, очищают и обогащают их, чтобы загрузить в корпоративное хранилище или озеро, откуда их будут потреблять аналитические приложения и BI-системы. Также при этом задействованы конвейеры потоковой и пакетной обработки данных на основе множества открытых и проприетарных технологий: Apache Kafka, AirFlow, NiFi, Spark, Flink, Greenplum, Snowflake, реляционные базы данных и NoSQL-хранилища.
Курс позволит участникам реализовать настоящий бизнес-кейс на аналитической платформе, познакомиться на практике с основными инструментами Big Data, узнать их назначение и место в архитектуре аналитической платформы.
Аудитория:
--------------------------------------
* ИТ-архитекторы, которые выбирают концепцию построения хранилищ данных и конкретные сервисы для решения задач бизнеса;
* технические директоры, которые оценивают решения с точки зрения стратегии развития компании в плане IT-технологий;
* дата-инженеры, разработчики и системные администраторы, которые будут непосредственно участвовать в реализации проектных решений;
* аналитики данных, которым интересна архитектура используемой инфраструктуры.
Предварительный уровень подготовки:
--------------------------------------------
* опыт написания SQL запросов
* работа с командной строкой linux.
Программа курса
1. Постановка бизнес-задач и знакомство с BigData архитектурой
Определяем бизнес-потребность.
Формируем ключевые требования к решению, которое позволит удовлетворить бизнес-потребность и принести ценность.
Теория по архитектуре аналитического приложения BigData
Практическая часть: построение архитектуры анализа данных в зависимости от бизнес кейсов
2. Инструменты для анализа больших данных
Описание инструментов для анализа больших данных Spark, Hive, Dask и др.
Практическая часть: анализ данных с помощью Spark/Hive
3. DWH хранилища данных, слои накопления данных (stg, ods, dds, dim, mart)
Предназначение концептуальных слоев накопления данных
Очистка и трансформация данных
Batch загрузка данных
Stream загрузка данных
Практическая часть: загрузка данных различными способами
4. Способы организации хранения сырых данных (stg слой)
Теоретическое описание слоя хранения данных и его принципов
Big Data репозиторий, HDFS и форматы хранения данных
EDW концепция, преимущества и недостатки
NoSQL подход к хранению данных
Практическая часть: демонстрация работы с файлами в HDFS и S3
5. Инструменты для управления процессами обработки и перемещения данных. Часть 1
Введение в Airflow.
Практическая часть: настройки и демонстрация работы Airflow на примере простых задач
6. Инструменты для управления процессами обработки и перемещения данных. Часть 2
Создаем пайплайн премещения данных с помощью airflow
Практическая часть: реализации пайплайна обработки и перемещения данных с помощью Airflow
7. BI инструменты для аналитика данных
OLAP/OLTP базы данных. BI инструменты (SuperSet, PowerBI, и др.), их архитектура и область применения.
Практическая часть: построение дашбордов в BI инструменте
8. Введение в ML
Кейсы использование ML
Разбор модели кейса
Практическая часть: встраивание модели в pipeline обработки данных