Поиск сообщества

Показаны результаты для тегов 'bigdata'.

  • Поиск по тегам

    Введите теги через запятую.
  • Поиск по автору

Тип контента


Форумы

  • Авторы и издательства
    • GeekBrains
    • Like-Центр (Аяз Шабутдинов)
    • OTUS
    • ХАКЕР
    • Нетология
    • Lynda
    • Convert Monster
    • Бизнес Молодость
    • WebForMyself
    • Udemy
    • Андрей Парабеллум
    • Skillbox
    • Наталья Закхайм
    • Роман Пузат
    • SalesHub
    • Радислав Гандапас
    • Андрей Захарян
    • Лилия Нилова
  • Инфопродукты и другие приватные материалы
    • Бизнес, финансы, схемы заработка
    • Арбитраж трафика | Товарка
    • SMM - все по работе с соц.сетями
    • SEO-оптимизация
    • Сайтостроение
    • Фото и Видео
    • Графика и Дизайн
    • Программирование и Администрирование
    • Копирайтинг
    • Психология
    • Саморазвитие, познание себя
    • Соблазнения | Пикап | Знакомства
    • Иностранные языки
    • Разное
    • Библиотека
    • Программы и скрипты
    • Базы данных
    • Ищу контент
  • Площадка статей и обсуждений
    • BlackRussia Geek (статьи, обзоры, обсуждения)
    • Флудильня | Оффтоп
    • Раздачи | Конкурсы
  • Рынок
    • Рыночная площадь
    • Работа / Вакансии
  • Технический раздел Black Russia
    • FAQ / Правила
    • Новости проекта
    • Вопрос / Ответ (Тех. поддержка)

Блоги

Без результатов

Без результатов

Категории

  • Авторы и издательства
    • GeekBrains
    • Like-Центр (Аяз Шабутдинов)
    • OTUS
    • ХАКЕР
    • Нетология
    • Lynda
    • Convert Monster
    • Бизнес Молодость
    • WebForMyself
    • Udemy
    • Андрей Парабеллум
    • Skillbox
    • Наталья Закхайм
    • Роман Пузат
    • SalesHub
    • Радислав Гандапас
    • Андрей Захарян
    • Лилия Нилова
  • Инфопродукты и другие приватные материалы
    • Бизнес, финансы, схемы заработка
    • Арбитраж трафика | Товарка
    • SMM - все по работе с соц.сетями
    • SEO-оптимизация
    • Сайтостроение
    • Фото и Видео
    • Графика и Дизайн
    • Программирование и Администрирование
    • Копирайтинг
    • Психология
    • Саморазвитие, познание себя
    • Соблазнения | Пикап | Знакомства
    • Иностранные языки
    • Разное
    • Библиотека
    • Программы и скрипты
    • Базы данных

Поиск результатов в...

Поиск результатов, которые содержат...


Дата создания

  • Начало

    Конец


Дата обновления

  • Начало

    Конец


Фильтр по количеству...

Регистрация

  • Начало

    Конец


Группа


Обо мне

Найдено: 3 результата

  1. Программа курса:Первый модульДля разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на PythonЗанятие 1: Базовые инструменты анализа данных в Python. Подготовка к курсу. Git, окружение Python. Обзор курса.Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.Что такое DS, ML, классы решаемых задач.ДЗРеализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.Занятие 2: Вводная в математические операции. Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.Занятие 3: Визуализация Визуализация на matplotlib, seaborn, plotlyДЗПостроение визуализаций по даннымЗанятие 4: Линейная регрессия Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.Занятие 5: Логистическая регрессия Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.Теория вероятностей: условные вероятности, теорема Байеса.Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.ДЗРеализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.Занятие 6: KNN, наивный байес Метрики и расстояния между объектами: евклидова и другие.Обучение модели kNN. Ограничения.Метрики качества: accuracy, precision, recall, др.Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-PosterioriЗанятие 7: kMeans, EM Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.ДЗРеализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.Занятие 8: Иерархическая кластеризация, DB-Scan Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.Занятие 9: Feature engineering Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.ДЗПреобразование набора данных и подбор фич.Занятие 10: Поиск выбросов в данных
  2. О курсеВ настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. Цель курса - освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение. В нашем курсе мы научим основам анализа данных: расскажем о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения. Программа курса:Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления. Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.ДЗНастройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машинеЗанятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash ДЗРеализация алгоритма с использованием MapReduce.Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.Занятие 29: Слои данных для оптимизации процессов использования данных. Hive. ДЗРеализация алгоритма с использованием Hive.Занятие 30: Организация хранения данных для решения задач машинного обученияЗанятие 31: Spark Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.ДЗРеализация алгоритма с использованием Spark.Занятие 32: Обзор решений для аналитики больших данных Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.Агрегация, управление, эксперименты, анализ, визуализация и BI
  3. Программа курсаОт сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.Занятие 11: Уменьшение размерности Principle component analysis, t-sne. Поиск подмножества фич (subset selection).ДЗПрименение снижения размерности для использования в модели.Занятие 12: Методы оптимизации SGD, модификации SGDЗанятие 13: Деревья решений Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.ДЗРеализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.Занятие 14: Ансамбли моделей Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.Занятие 15: Бустинг Xgboost, catboost, lightgbm, Стекинг, блендингДЗПрименение бустинга для построения лучшей модели.Занятие 16: SVM, Support vector machine Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.Занятие 17: Анализ текстовых данных Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.ДЗРеализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данныхЗанятие 18: Анализ текстовых данных Выделение объектов в тексте (named entity recognition, named entity linking)Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)Word2vec для извлечения похожих слов, sentiment analysis