Каталог курсов

Курсы High Tech

Pyton - обновление курсов!

Подготовка данных для Data Mining на Python

Продолжительность: 32 ч

Описание курса

Продолжительность - 32 часа / 4 дня.
Примечание: 4-дневный курс (32 академических часа) проводится в течение 8 дней!

Практический Курс "Подготовка данных для Data Mining на Python" для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.

Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning).
Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:

выборка;
очистка;
генерация признаков;
интеграция;
форматирование.

Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.

Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и
интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с "сырыми" данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.

Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.

Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).

*** Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс :)))

Аудитория:
----------------------------------
Курс ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data - он позволит получить расширенные знания и прикладные навыки подготовки "сырых" датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.

Также курс будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.

Предварительный уровень подготовки:
--------------------------------------------------
* опыт программирования на языке Python;
* знание основ математического анализа и математической статистики;
* знания основ языка Python для анализа данных и решения задач машинного обучения.

Программа курса

ДЕНЬ 1-2.

1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных.

Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках.

Теоретическая часть:
---------------------------
* изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
* обзор основных приемов по работе с данными:
* первичный анализ данных
* получение описательных статистик
* изменение типа данных
* построение сводных таблиц
* визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, "ящики с усами" и "виолончели")

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

ДЕНЬ 3-4.

2. Библиотеки Python в корректировании типичных особенностей в данных.

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python.
Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

* обзор типичных особенностей в данных и подходов к их корректировке:
* отсутствующие значения
* выбросы
* дубликаты
* подготовка данных для использования в алгоритмах машинного обучения:
* нормализация числовых данных
* преобразование категориальных значений
* работа с текстовыми данными

Практическая часть: подготовка "сырых" данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма.

ДЕНЬ 5-6.

3. Подходы к построению дополнительного признакового пространства на основе исходных данных (День 5-6)
Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик
из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn.

Теоретическая часть:

* обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
* увеличение размерности исходного признакового пространства
* постановка задачи в случае обучения с учителем — с использованием целевой переменной
* постановка задачи в случае обучения без учителя
* уменьшение размерности исходного признакового пространства
* подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
* статистические методы фильтрации признаков в задачах классификации и регрессии
* методы машинного обучения как инструменты для получения наиболее значимых признаков в данных

Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения

ДЕНЬ 7-8.

4. Проектная работа
Цель: закрепить полученные слушателями курса знания по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием
собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.