0
JeyLie

otus Pазработчик BigData. Модуль 2 из 5 (2018)

Рекомендуемые сообщения

916d9be61066.png

900456084efb.png

a0d890605848.png

Программа курса

От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.

Занятие 11: Уменьшение размерности 
Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
ДЗ
Применение снижения размерности для использования в модели.

Занятие 12: Методы оптимизации 
SGD, модификации SGD

Занятие 13: Деревья решений 
Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
ДЗ
Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.

Занятие 14: Ансамбли моделей 
Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.

Занятие 15: Бустинг 
Xgboost, catboost, lightgbm, Стекинг, блендинг
ДЗ
Применение бустинга для построения лучшей модели.

Занятие 16: SVM, Support vector machine 
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.

Занятие 17: Анализ текстовых данных 
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных 
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis 

Спойлер

https://cloud.mail.ru/public/FiUq/NiZxuJNwp

 

Поделиться сообщением


Ссылка на сообщение

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
0

  • Похожий контент

    • От JeyLie
      Темы первого модуля:

      Введение в алгоритмы, RAM-модель
      Студенты смогут оценивать сложность алгоритмов, ознакомятся с эмулятором RAM-машины.

      Порядок роста функций, нотации для обозначения порядка роста
      Студенты освоят нотации о малое, о большое, омега малое, омега большое, тета, научатся применять полученные знания на практике при оценке сложности реальных алгоритмов.

      Простейшие структуры данных: массив, динамический массив, стек, очередь, списки, кучи
      Студенты ознакомятся с использованием и реализацией простейших структур данных.

      Алгебраические алгоритмы: алгоритм Евклида, быстрое возведение в степень, решето Эратосфена, быстрое вычисление чисел Фибоначчи
      Студенты ознакомятся с использованием и реализацией некоторых популярных алгебраических алгоритмов.

      Сортировка вставками, сортировка Шелла, сортировка выбором, пузырьковая сортировка
      Студенты освоят алгоритмы сортировки вставками, выбором, пузырьком, сортировку Шелла. По окончании занятия студенты смогут реализовывать и правильно применять данные алгоритмы.

      Сортировка слиянием, timsort
      Студенты освоят и смогут реализовать алгоритмы сортировки слиянием и timsort.

      Пирамидальная сортировка (heap sort), tree sort, очередь с приоритетами
      Студенты смогут реализовывать и применять пирамидальную сортировку, tree sort, очередь с приоритетами.

      Быстрая сортировка
      Студенты освоят алгоритм быстрой сортировки.

      Сортировка подсчетом, поразрядная сортировка, блочная сортировка (bucket sort)
      Студенты освоят и смогут реализовать сортировку подсчетом, поразрядную сортировку, блочную сортировку.

      Медианы и порядковые статистики
      Студенты научатся реализовывать алгоритмы для нахождения медианы и порядковых статистик.
       
    • От JeyLie
      Программа курса:
      Первый модуль
      Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python

      Занятие 1: Базовые инструменты анализа данных в Python. 
      Подготовка к курсу. Git, окружение Python. Обзор курса.
      Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
      Что такое DS, ML, классы решаемых задач.
      ДЗ
      Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

      Занятие 2: Вводная в математические операции. 
      Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

      Занятие 3: Визуализация 
      Визуализация на matplotlib, seaborn, plotly
      ДЗ
      Построение визуализаций по данным

      Занятие 4: Линейная регрессия 
      Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
      Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

      Занятие 5: Логистическая регрессия 
      Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
      Теория вероятностей: условные вероятности, теорема Байеса.
      Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
      ДЗ
      Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

      Занятие 6: KNN, наивный байес 
      Метрики и расстояния между объектами: евклидова и другие.
      Обучение модели kNN. Ограничения.
      Метрики качества: accuracy, precision, recall, др.
      Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

      Занятие 7: kMeans, EM 
      Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
      Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
      ДЗ
      Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

      Занятие 8: Иерархическая кластеризация, DB-Scan 
      Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.

      Занятие 9: Feature engineering 
      Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
      ДЗ
      Преобразование набора данных и подбор фич.

      Занятие 10: Поиск выбросов в данных