ДАННЫЙ ПЕРЕЧЕНЬ СОДЕРЖИТ ОБЩЕДОСТУПНЫЕ МАТЕРИАЛЫ, ПРОМАРКИРОВАННЫЕ КАК РАЗРАБОТАННЫЕ СОТРУДНИКАМИ ВШЭ И MAIL.RU, АВТОР В МОМЕНТ НАПИСАНИЯ НЕ МОЖЕТ ГАРАНТИРОВАТЬ, ЧТО В БУДУЩЕМ ЭТИ ОРГАНИЗАЦИИ НЕ БУДУТ ПРИЗНАНЫ ИНОСТРАННЫМИ АГЕНТАМИ
- Семинар 1
- Семинар 2
- Семинар 3
- Семинар 4
- Семинар 5
- Семинар 6 (самост.)
- Семинар 7
- Семинары 8-9
- Семинар 10
- Семинар 11
- Семинар 12
- Семинары 13-14
- Домашние задания
- Конкурс
- Дополнительное задание к ДЗ 3
- Литература
Ссылка: https://colab.research.google.com/drive/1j35o-fn70TwGJ66ZKRISybegwkBwjIwW
Материалы:
- Тренировка с Pandas
Ссылка: https://colab.research.google.com/drive/1Vuw2_iDuhE_o07-NFL_6YXOovyZ4lagO
Материалы:
- Тренировка с Pandas
- Графоний
- kNN
- Нормировка для самых маленьких
Ссылка: https://colab.research.google.com/drive/1JmKS2FdDLOWsOoBnHVKRlwivEGPRXomK
Материалы:
- Сорта машинного обучения
- Нормировка для самых побольше чем самых маленьких
- Бинарная классификация: TP, TN, FP, FN, Precision, Recall, Accuracy
- kNN
- tSNE
- Куча ссылок на статьи по темам
Ссылка: https://colab.research.google.com/drive/1p8gFK_d7GLO3mvH2fnQmFPY1v4A8GI_7
Материалы:
- Линейная регрессия
- Ridge и Lasso (только формулы)
Дополнительные материалы:
- (Про линейную регрессию): https://habr.com/ru/company/ods/blog/322076/
Ссылка: https://colab.research.google.com/drive/1uqkG2EbJ8CthIKgYej9qwB1oCHsWZQnB
Материалы:
- Логистическая регрессия
- Анализ текста
- GridSearch (перебор гиперпараметров)
- Проблема XOR и введение полиномиальных признаков
- Пример применения решающего леса
Дополнительные материалы:
- (Альтернативы полиномиальным признакам1): https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem11_linear.pdf
- (Альтернативы полиномиальным признакам2): https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem12_linear.pdf
Семинар проходил в формате самообучения. У меня лапки, поэтому, возможно, я выделил не все ключевые темы семинара
Ссылки:
- (PCA): https://habr.com/ru/post/304214/
- (SVD) https://colab.research.google.com/drive/1xu8s7LcNea3JfWbi5yfPMQiTRGoELW-R
- (Деревья): https://habr.com/ru/company/ods/blog/322534/
- (Деревья): https://colab.research.google.com/drive/14j83rWbLHAdqTce9_hgjojRO__yxA10x
- (Кросс-валидация): https://wiki.loginom.ru/articles/cross-validation.html
- (PCA и кластеризация): https://habr.com/ru/company/ods/blog/325654/
Материалы:
- PCA (метод главных компонент)
- SVD (сингулярное разложение и сжатие картинок)
- k-Means и решающие деревья
- Кроссвалидация
Ссылка: https://colab.research.google.com/drive/1utWzvRjfAbisBx5wPsHe5p5h-X0COd4k
Материалы:
- Bagging
- Gradient Boosting
Дополнительные материалы:
- (В целом): https://habr.com/ru/post/561732/
- (Бустинг): https://habr.com/ru/company/ods/blog/327250/
- (Ещё бустинг): https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/
- (И ещё бустинг): https://proglib.io/p/reshaem-zadachi-mashinnogo-obucheniya-s-pomoshchyu-algoritma-gradientnogo-bustinga-2021-11-25
Ссылка: https://colab.research.google.com/drive/1hDEb8Sk14fNJX7B0bgXov5MCgLBtQ81R
Материалы:
- Нейронные сети
- Торч
- Adagrad, Adam и другие оптимизаторы
Дополнительные материалы:
- (Нейронные сети, хабр): https://habr.com/ru/post/312450/
- (backward в PyTorch): https://medium.com/@monadsblog/pytorch-backward-function-e5e2b7e60140
- (Поиграться): https://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle®Dataset=reg-plane&learningRate=0.03®ularizationRate=0&noise=0&networkShape=4,2&seed=0.37962&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false
- (Adagrad и др.): https://habr.com/ru/company/skillfactory/blog/525214/
- (Оптимизаторы на пальцах): https://habr.com/ru/company/skillfactory/blog/552394/
- (Ещё оптимизаторы): https://habr.com/ru/post/318970/
- Почитать про One-Hot Encoding пригодится для ДЗ1
Ссылка: отсутствует
Материалы:
- Нормализация
- Dropout прямой и обратный, слой dropout-а
Дополнительные материалы:
- (Batch-нормализация): https://neerc.ifmo.ru/wiki/index.php?title=Batch-normalization
- (Dropout): https://habr.com/ru/company/skillfactory/blog/552394/
- (Ещё Dropout): https://wandb.ai/wandb_fc/russian/reports/-PyTorch---VmlldzoxNDI4NzM4
Ссылка: https://colab.research.google.com/drive/1yQH9J-K8M7Bs_OThiS7UdhFg_rIM8NCZ
Материалы:
- Свёрточные нейронные сети
- MNIST (популярный dataset с рукописными цифрами)
Дополнительные материалы:
Ссылка (решили, что там в основном ерунда какая-то написана): https://colab.research.google.com/drive/1Ovx-5DJ8q26cYewxyqL4y_DbAGsoW2Lp
Материалы:
- За здоровье свёрточных нейронок!
- Рекуррентные нейронные сети
- Как обрабатывать текст, как кормить его нейронной сети
- Совет почитать на досуге: word embedding
Дополнительные материалы:
- (Для вдохновения к ДЗ 3): https://habr.com/ru/company/piter/blog/471228/
Две недели подряд занятия отменялись, но в жизни всякое бывает
Материалов семинаров пока что не выслано
- (Задача генерации текста): https://www.kdnuggets.com/2020/07/pytorch-lstm-text-generation-tutorial.html
- (RNN::LSTM): https://colab.research.google.com/drive/12fwFCVNHOb9Vtw_tZIQiTJLlbuHu-bLD?usp=sharing
- (Word2Vec): https://habr.com/ru/post/446530/
- (Как работает переводчик): https://habr.com/ru/post/486158/
- (Self-attention): https://habr.com/ru/post/486358/
- (Attention Is All You Need): https://arxiv.org/pdf/1706.03762.pdf
Материалы:
- LSTM
- Разбор понятий обработки данных к дз3 (аугументация изображений, токенизация текста)
- Word2Vec, Мешок слов, One-Hot и Словарь, Корпус и документ
- Альтернативные подходы к решению конкурсного задания дз2.3
- Layer Norm
- Автокодировщик
- Self-Attention
- Как работает машинный перевод
Зеркало Толика со всеми датасетами: https://gitlab.toliak.ru/Toliak/oirs-datasets/-/blob/master/README.md
- (ДЗ 1): https://colab.research.google.com/drive/1UskMwmGQZX24UDhTY9HeJhSrhYi_OnfN
- (ДЗ 2):
- https://colab.research.google.com/drive/1vCtMz2G9aQWz7iVeaxa1O8BE0wLBrGad
- Конкурс из пункта ниже
- (ДЗ 3): до 12 июня 23:55
- https://colab.research.google.com/drive/1hkVZPCBKHqI1smH1MMsrgcQ_2hgRPuLR
- Дополнительное задание к ДЗ 3
- Конкурс: https://iu8-challenge.ddns.net
- Регистрация: https://iu8-challenge.ddns.net/signup
- "Если за дз хочется больше 18 баллов, надо поучаствовать. Хоть как-то"
- "Можно делать до 50 попыток в день"
- "Письмо на почту не приходит, активация аккаунтов делается вручную" -- (возможно, придётся пинговать своих преподавателей)
- Модель: Модель, детектирующая аномальные HTTP-запросы (задача поиска аномалий, обучение без учителя, разметка приведена для оценки качества модели)
- Правила для версии "13 мая": https://docs.google.com/document/d/1V6_lOCnwarhkKVoK5jTX5YsujQSZvv-m7eA7CEcnQaI/edit
- Данные: https://drive.google.com/file/d/16Rc8aomr5_G-0U4BxpGusCrvsPYoDXo2/view
Формы сдачи и награды:
Критерий | 31 мая 23:55 | |
---|---|---|
Баллы к ДЗ2 | +7 | +7 |
Доп.баллы сверх семестровых | +10 | |
Билеты на PHDays | Лучшим | |
Команда | 1-3 чел | 1-3 чел |
Требуется обученная модель | + | + |
Треб. презентация и выступление | + | |
Треб. микросервис | + |
Надо заполнить ноутбук modules.ipunb, чтобы тесты в ноутбуке test_modules.ipynb проходили без ошибок. В test_modules 12 тестов в базовой части и 2 теста в расширенной.
- За каждый тест из базовой части можно получить 1/3 балла. Сумма округляется вниз. Max 4 балла.
- За каждый тест из расширенной по 1 баллу. Max 2 балла
- Обучить нейросеть на наборе данных по варианту. Max 1 балл.
Ссылка на modules: https://colab.research.google.com/drive/1R1tm0t9dFJJih-8M5tkIU_Z2T9ciu5Ad
Ссылка на test_modules: https://colab.research.google.com/drive/1Gx8EQPVBQkQ6UmT3BfNjYf67WLVb8zQ-
С семинаров:
- (семинары 3-7) Джеймс Г. Уиттон А. Хасти Т. Тибширани Р. "Введение в статистическое обучение"
- (семинары 11-14) "Deep Learning with PyTorch" Eli Stevens, Luca Antiga,Thomas Viehmann
С лекций:
- Николенко С., Кадурин А. "Глубокое обучение"
- Черняк Е. "Введение в глубокое обучение"
- Гудфеллоу Я. "Глубокое Обучение"