0
JeyLie

otus Pазработчик BigData. Модуль 1 из 5 (2018)

Рекомендуемые сообщения

1539336625973.png

a0d890605848.png

Программа курса:
Первый модуль
Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python

Занятие 1: Базовые инструменты анализа данных в Python. 
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

Занятие 2: Вводная в математические операции. 
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

Занятие 3: Визуализация 
Визуализация на matplotlib, seaborn, plotly
ДЗ
Построение визуализаций по данным

Занятие 4: Линейная регрессия 
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

Занятие 5: Логистическая регрессия 
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

Занятие 6: KNN, наивный байес 
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

Занятие 7: kMeans, EM 
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

Занятие 8: Иерархическая кластеризация, DB-Scan 
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.

Занятие 9: Feature engineering 
Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
ДЗ
Преобразование набора данных и подбор фич.

Занятие 10: Поиск выбросов в данных 

 

Спойлер

https://cloud.mail.ru/public/FTep/o8wo3g9gv

 

Поделиться сообщением


Ссылка на сообщение

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
0

  • Похожий контент

    • От JeyLie
      Темы первого модуля:

      Введение в алгоритмы, RAM-модель
      Студенты смогут оценивать сложность алгоритмов, ознакомятся с эмулятором RAM-машины.

      Порядок роста функций, нотации для обозначения порядка роста
      Студенты освоят нотации о малое, о большое, омега малое, омега большое, тета, научатся применять полученные знания на практике при оценке сложности реальных алгоритмов.

      Простейшие структуры данных: массив, динамический массив, стек, очередь, списки, кучи
      Студенты ознакомятся с использованием и реализацией простейших структур данных.

      Алгебраические алгоритмы: алгоритм Евклида, быстрое возведение в степень, решето Эратосфена, быстрое вычисление чисел Фибоначчи
      Студенты ознакомятся с использованием и реализацией некоторых популярных алгебраических алгоритмов.

      Сортировка вставками, сортировка Шелла, сортировка выбором, пузырьковая сортировка
      Студенты освоят алгоритмы сортировки вставками, выбором, пузырьком, сортировку Шелла. По окончании занятия студенты смогут реализовывать и правильно применять данные алгоритмы.

      Сортировка слиянием, timsort
      Студенты освоят и смогут реализовать алгоритмы сортировки слиянием и timsort.

      Пирамидальная сортировка (heap sort), tree sort, очередь с приоритетами
      Студенты смогут реализовывать и применять пирамидальную сортировку, tree sort, очередь с приоритетами.

      Быстрая сортировка
      Студенты освоят алгоритм быстрой сортировки.

      Сортировка подсчетом, поразрядная сортировка, блочная сортировка (bucket sort)
      Студенты освоят и смогут реализовать сортировку подсчетом, поразрядную сортировку, блочную сортировку.

      Медианы и порядковые статистики
      Студенты научатся реализовывать алгоритмы для нахождения медианы и порядковых статистик.
       
    • От JeyLie
      Вы узнаете:

      • Как мотивировать людей и вовлечь их в работу
      • Что такое команда и как повысить её производительность
      • Какой результат управленческой деятельности можно считать выдающимся
      • Как этого результата достичь
      • Чем должен заниматься руководитель, а чем нет
      • Как сокращать издержки в коммуникациях
       
    • От JeyLie
      Описание:
      Что даст вам этот курс
      Цель курса — научить слушателя эффективно работать с любой реляционной базой данных с помощью языка структурированных запросов SQL.

      На курсе будут подробно раскрыты следующие темы:
      1. Как устроены и работают реляционные СУБД?
      2. Как решать вопросы оптимального хранения и выборки данных?
      3. Как пользоваться SQL-командами?
      4. Как писать корректные оптимальные запросы?