ДАННЫЙ ПЕРЕЧЕНЬ СОДЕРЖИТ ОБЩЕДОСТУПНЫЕ МАТЕРИАЛЫ, ПРОМАРКИРОВАННЫЕ КАК РАЗРАБОТАННЫЕ СОТРУДНИКАМИ ВШЭ И MAIL.RU, АВТОР В МОМЕНТ НАПИСАНИЯ НЕ МОЖЕТ ГАРАНТИРОВАТЬ, ЧТО В БУДУЩЕМ ЭТИ ОРГАНИЗАЦИИ НЕ БУДУТ ПРИЗНАНЫ ИНОСТРАННЫМИ АГЕНТАМИ

Семинар 1
Семинар 2
Семинар 3
Семинар 4
Семинар 5
Семинар 6 (самост.)
Семинар 7
Семинары 8-9
Семинар 10
Семинар 11
Семинар 12
Семинары 13-14
Домашние задания
Конкурс
Дополнительное задание к ДЗ 3
Литература

Семинар 1

Ссылка: https://colab.research.google.com/drive/1j35o-fn70TwGJ66ZKRISybegwkBwjIwW

Материалы:

Тренировка с Pandas

Семинар 2

Ссылка: https://colab.research.google.com/drive/1Vuw2_iDuhE_o07-NFL_6YXOovyZ4lagO

Материалы:

Тренировка с Pandas
Графоний
kNN
Нормировка для самых маленьких

Семинар 3

Ссылка: https://colab.research.google.com/drive/1JmKS2FdDLOWsOoBnHVKRlwivEGPRXomK

Материалы:

Сорта машинного обучения
Нормировка для самых побольше чем самых маленьких
Бинарная классификация: TP, TN, FP, FN, Precision, Recall, Accuracy
kNN
tSNE
Куча ссылок на статьи по темам

Семинар 4

Ссылка: https://colab.research.google.com/drive/1p8gFK_d7GLO3mvH2fnQmFPY1v4A8GI_7

Материалы:

Линейная регрессия
Ridge и Lasso (только формулы)

Дополнительные материалы:

(Про линейную регрессию): https://habr.com/ru/company/ods/blog/322076/

Семинар 5

Ссылка: https://colab.research.google.com/drive/1uqkG2EbJ8CthIKgYej9qwB1oCHsWZQnB

Материалы:

Логистическая регрессия
Анализ текста
GridSearch (перебор гиперпараметров)
Проблема XOR и введение полиномиальных признаков
Пример применения решающего леса

Дополнительные материалы:

(Альтернативы полиномиальным признакам1): https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem11_linear.pdf
(Альтернативы полиномиальным признакам2): https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem12_linear.pdf

Семинар 6

Семинар проходил в формате самообучения. У меня лапки, поэтому, возможно, я выделил не все ключевые темы семинара

Ссылки:

(PCA): https://habr.com/ru/post/304214/
(SVD) https://colab.research.google.com/drive/1xu8s7LcNea3JfWbi5yfPMQiTRGoELW-R
(Деревья): https://habr.com/ru/company/ods/blog/322534/
(Деревья): https://colab.research.google.com/drive/14j83rWbLHAdqTce9_hgjojRO__yxA10x
(Кросс-валидация): https://wiki.loginom.ru/articles/cross-validation.html
(PCA и кластеризация): https://habr.com/ru/company/ods/blog/325654/

Материалы:

PCA (метод главных компонент)
SVD (сингулярное разложение и сжатие картинок)
k-Means и решающие деревья
Кроссвалидация

Семинар 7

Ссылка: https://colab.research.google.com/drive/1utWzvRjfAbisBx5wPsHe5p5h-X0COd4k

Материалы:

Bagging
Gradient Boosting

Дополнительные материалы:

(В целом): https://habr.com/ru/post/561732/
(Бустинг): https://habr.com/ru/company/ods/blog/327250/
(Ещё бустинг): https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/
(И ещё бустинг): https://proglib.io/p/reshaem-zadachi-mashinnogo-obucheniya-s-pomoshchyu-algoritma-gradientnogo-bustinga-2021-11-25

Семинары 8-9

Ссылка: https://colab.research.google.com/drive/1hDEb8Sk14fNJX7B0bgXov5MCgLBtQ81R

Материалы:

Нейронные сети
Торч
Adagrad, Adam и другие оптимизаторы

Дополнительные материалы:

(Нейронные сети, хабр): https://habr.com/ru/post/312450/
(backward в PyTorch): https://medium.com/@monadsblog/pytorch-backward-function-e5e2b7e60140
(Поиграться): https://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=4,2&seed=0.37962&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false
(Adagrad и др.): https://habr.com/ru/company/skillfactory/blog/525214/
(Оптимизаторы на пальцах): https://habr.com/ru/company/skillfactory/blog/552394/
(Ещё оптимизаторы): https://habr.com/ru/post/318970/
Почитать про One-Hot Encoding пригодится для ДЗ1

Семинар 10

Ссылка: отсутствует

Материалы:

Нормализация
Dropout прямой и обратный, слой dropout-а

Дополнительные материалы:

(Batch-нормализация): https://neerc.ifmo.ru/wiki/index.php?title=Batch-normalization
(Dropout): https://habr.com/ru/company/skillfactory/blog/552394/
(Ещё Dropout): https://wandb.ai/wandb_fc/russian/reports/-PyTorch---VmlldzoxNDI4NzM4

Семинар 11

Ссылка: https://colab.research.google.com/drive/1yQH9J-K8M7Bs_OThiS7UdhFg_rIM8NCZ

Материалы:

Свёрточные нейронные сети
MNIST (популярный dataset с рукописными цифрами)

Дополнительные материалы:

https://medium.com/@nutanbhogendrasharma/pytorch-convolutional-neural-network-with-mnist-dataset-4e8a4265e118

Семинар 12

Ссылка (решили, что там в основном ерунда какая-то написана): https://colab.research.google.com/drive/1Ovx-5DJ8q26cYewxyqL4y_DbAGsoW2Lp

Материалы:

За здоровье свёрточных нейронок!
Рекуррентные нейронные сети
Как обрабатывать текст, как кормить его нейронной сети
Совет почитать на досуге: word embedding

Дополнительные материалы:

(Для вдохновения к ДЗ 3): https://habr.com/ru/company/piter/blog/471228/

Семинары 13-14

Две недели подряд занятия отменялись, но в жизни всякое бывает

Материалов семинаров пока что не выслано

(Задача генерации текста): https://www.kdnuggets.com/2020/07/pytorch-lstm-text-generation-tutorial.html
(RNN::LSTM): https://colab.research.google.com/drive/12fwFCVNHOb9Vtw_tZIQiTJLlbuHu-bLD?usp=sharing
(Word2Vec): https://habr.com/ru/post/446530/
(Как работает переводчик): https://habr.com/ru/post/486158/
(Self-attention): https://habr.com/ru/post/486358/
(Attention Is All You Need): https://arxiv.org/pdf/1706.03762.pdf

Материалы:

LSTM
Разбор понятий обработки данных к дз3 (аугументация изображений, токенизация текста)
Word2Vec, Мешок слов, One-Hot и Словарь, Корпус и документ
Альтернативные подходы к решению конкурсного задания дз2.3
Layer Norm
Автокодировщик
Self-Attention
Как работает машинный перевод

Домашние задания (семестровые)

Зеркало Толика со всеми датасетами: https://gitlab.toliak.ru/Toliak/oirs-datasets/-/blob/master/README.md

(ДЗ 1): https://colab.research.google.com/drive/1UskMwmGQZX24UDhTY9HeJhSrhYi_OnfN
(ДЗ 2):
1. https://colab.research.google.com/drive/1vCtMz2G9aQWz7iVeaxa1O8BE0wLBrGad
2. Конкурс из пункта ниже
(ДЗ 3): до 12 июня 23:55
1. https://colab.research.google.com/drive/1hkVZPCBKHqI1smH1MMsrgcQ_2hgRPuLR
2. Дополнительное задание к ДЗ 3

Конкурс

Конкурс: https://iu8-challenge.ddns.net
Регистрация: https://iu8-challenge.ddns.net/signup
"Если за дз хочется больше 18 баллов, надо поучаствовать. Хоть как-то"
"Можно делать до 50 попыток в день"
"Письмо на почту не приходит, активация аккаунтов делается вручную" -- (возможно, придётся пинговать своих преподавателей)
Модель: Модель, детектирующая аномальные HTTP-запросы (задача поиска аномалий, обучение без учителя, разметка приведена для оценки качества модели)
Правила для версии "13 мая": https://docs.google.com/document/d/1V6_lOCnwarhkKVoK5jTX5YsujQSZvv-m7eA7CEcnQaI/edit
Данные: https://drive.google.com/file/d/16Rc8aomr5_G-0U4BxpGusCrvsPYoDXo2/view

Формы сдачи и награды:

Критерий	~~13 мая 15:00~~	31 мая 23:55
Баллы к ДЗ2	+7	+7
Доп.баллы сверх семестровых	+10
Билеты на PHDays	Лучшим
Команда	1-3 чел	1-3 чел
Требуется обученная модель	+	+
Треб. презентация и выступление	+
Треб. микросервис	+

Дополнительное задание к ДЗ 3

Надо заполнить ноутбук modules.ipunb, чтобы тесты в ноутбуке test_modules.ipynb проходили без ошибок. В test_modules 12 тестов в базовой части и 2 теста в расширенной.

За каждый тест из базовой части можно получить 1/3 балла. Сумма округляется вниз. Max 4 балла.
За каждый тест из расширенной по 1 баллу. Max 2 балла
Обучить нейросеть на наборе данных по варианту. Max 1 балл.

Ссылка на modules: https://colab.research.google.com/drive/1R1tm0t9dFJJih-8M5tkIU_Z2T9ciu5Ad

Ссылка на test_modules: https://colab.research.google.com/drive/1Gx8EQPVBQkQ6UmT3BfNjYf67WLVb8zQ-

Литература

С семинаров:

(семинары 3-7) Джеймс Г. Уиттон А. Хасти Т. Тибширани Р. "Введение в статистическое обучение"
(семинары 11-14) "Deep Learning with PyTorch" Eli Stevens, Luca Antiga,Thomas Viehmann

С лекций:

Николенко С., Кадурин А. "Глубокое обучение"
Черняк Е. "Введение в глубокое обучение"
Гудфеллоу Я. "Глубокое Обучение"

NickTikhomirov/oirs.md

Оглавление

Семинар 1

Семинар 2

Семинар 3

Семинар 4

Семинар 5

Семинар 6

Семинар 7

Семинары 8-9

Семинар 10

Семинар 11

Семинар 12

Семинары 13-14

Домашние задания (семестровые)

Конкурс

Дополнительное задание к ДЗ 3

Литература