Глубинное обучение для текстовых данных 24/25 — различия между версиями
(→Полезные ссылки) |
|||
| (не показано 10 промежуточных версии этого же участника) | |||
| Строка 18: | Строка 18: | ||
* Github курса: https://github.com/ashaba1in/hse-nlp/tree/main/2024 | * Github курса: https://github.com/ashaba1in/hse-nlp/tree/main/2024 | ||
| + | |||
| + | * Таблица с оценками: https://docs.google.com/spreadsheets/d/1G8joZP-WQmrdbW1P6lpjdxceBPvuRQw_Q8RIROq8OBg/edit?usp=sharing | ||
* anytask для сдачи домашних заданий: https://anytask.org/course/1141. | * anytask для сдачи домашних заданий: https://anytask.org/course/1141. | ||
| Строка 35: | Строка 37: | ||
4. Декодирование текста. BERT. GPT. Записи: [https://disk.yandex.ru/d/UzOvSJo3wzwRfg лекция], [https://disk.yandex.ru/i/ESJGALwhHmpeFw семинар] | 4. Декодирование текста. BERT. GPT. Записи: [https://disk.yandex.ru/d/UzOvSJo3wzwRfg лекция], [https://disk.yandex.ru/i/ESJGALwhHmpeFw семинар] | ||
| − | 5. Современные языковые модели. Записи: [https://disk.yandex.ru/d/XxifHojvPcc11Q лекция] | + | 5. Современные языковые модели. Записи: [https://disk.yandex.ru/d/XxifHojvPcc11Q лекция], [https://disk.yandex.ru/i/uBlwwxeRLHm5pA семинар] |
| + | |||
| + | 6. Transfer learning. Parameter-Efficient Fine-tuning. Записи: [https://disk.yandex.ru/i/Uu8kcbw-ylEX8Q лекция] | ||
| + | |||
| + | 7. Уменьшение размера моделей. Записи: [https://disk.yandex.ru/i/_JAcNx3GDxFJ-Q лекция], [https://disk.yandex.ru/i/WvX6CeJV7NUp5g семинар] | ||
| + | |||
| + | 8. Лекция от Тимофей Смирнова про Яндекс Нейро. Записи: [https://disk.yandex.ru/i/c8e73nUETfYhEg лекция] | ||
| + | |||
| + | 9. Retrieval-augmented generation (RAG). Записи: [https://disk.yandex.ru/d/BQtK6z1vTYsD8w лекция] | ||
| + | |||
| + | 10. Текстовые диффузионные модели. Записи: [https://disk.yandex.ru/i/Twt3WSxRODrxaA лекция] | ||
| + | |||
| + | 11. Active Learning. Записи: [https://disk.yandex.ru/i/2M9SvLhYNn86KA лекция] | ||
| + | |||
| + | == Домашние задания == | ||
| + | |||
| + | 1. Text Suggestion: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week2_generation/homework/hw1.ipynb условие] | ||
| + | |||
| + | 2. Рекуррентные нейронные сети: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week3_rnn_transformer/homework/hw2.ipynb условие] | ||
| + | |||
| + | 3. LLaMA: [https://github.com/ashaba1in/hse-nlp/tree/main/2024/week5_modern_llms/homework условие] | ||
| + | |||
| + | 4. Уменьшение размеров модели: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week7_size_reduction/homework/hw4.ipynb условие] | ||
| + | |||
| + | 5. Retrieval-Augmented Generation: [https://github.com/ashaba1in/hse-nlp/blob/main/2024/week9_rag/homework/hw5.ipynb условие] | ||
== Преподаватели и ассистенты == | == Преподаватели и ассистенты == | ||
| Строка 51: | Строка 77: | ||
|} | |} | ||
| − | == | + | == Контрольная работа == |
| − | + | ||
| − | + | ||
| − | + | Контрольная работа пройдет 05.11.2024 на лекции в R207 в формате письменной работы на 80 минут. [https://docs.google.com/document/d/15jkjm8w-TaTSzztuOCLjOeIh2SaABh6a4t2J0Aho31I/edit?usp=sharing Вопросы для подготовки]. | |
| − | + | ||
| − | + | ||
== Формула оценок == | == Формула оценок == | ||
Текущая версия на 15:57, 18 декабря 2024
Содержание
О курсе
NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам. В курсе мы пройдем весь путь развития подходов NLP от классического машинного обучения до современных больших языковых моделей и узнаем, какие задачи встречаются в NLP и как правильно подходить к их решению. Особое внимание мы уделим Трансформерным моделям и обсудим, как обучать их наиболее эффективно, а так же какими свойствами обладают предобученные модели. Каждая тема будет сопровождаться домашним заданием, при решении которого студенты смогут лучше разобраться в тонкостях реализаций обсуждаемых подходов на практике.
Расписание
Лекция: Вторник 16:20. Ссылка на zoom.
Семинары:
- Группа 1 (Биршерт): Четверг 18:10. Ссылка на zoom.
- Группа 2 (Панков): Вторник 18:10. Ссылка на zoom.
Полезные ссылки
- Общий чат курса в telegram: https://t.me/+y3lpNwqty_9iYjYy
- Github курса: https://github.com/ashaba1in/hse-nlp/tree/main/2024
- Таблица с оценками: https://docs.google.com/spreadsheets/d/1G8joZP-WQmrdbW1P6lpjdxceBPvuRQw_Q8RIROq8OBg/edit?usp=sharing
- anytask для сдачи домашних заданий: https://anytask.org/course/1141.
Инвайты: * Первая группа: 4j9MpiI * Вторая группа: DH8HCdZ
Темы курса
1. Классификация текста. Записи: лекция, семинар
2. Генерация текста. Методы токенизации. Записи: лекция, семинар
3. Рекуррентные нейронные сети. Трансформер. Записи: лекция, семинар
4. Декодирование текста. BERT. GPT. Записи: лекция, семинар
5. Современные языковые модели. Записи: лекция, семинар
6. Transfer learning. Parameter-Efficient Fine-tuning. Записи: лекция
7. Уменьшение размера моделей. Записи: лекция, семинар
8. Лекция от Тимофей Смирнова про Яндекс Нейро. Записи: лекция
9. Retrieval-augmented generation (RAG). Записи: лекция
10. Текстовые диффузионные модели. Записи: лекция
11. Active Learning. Записи: лекция
Домашние задания
1. Text Suggestion: условие
2. Рекуррентные нейронные сети: условие
3. LLaMA: условие
4. Уменьшение размеров модели: условие
5. Retrieval-Augmented Generation: условие
Преподаватели и ассистенты
| Преподаватели | Ассистенты |
|---|---|
| Александр Шабалин | Андрей Ишутин |
| Алексей Биршерт | Николай Юдин |
| Алексей Панков | Анастасия Кеммер |
Контрольная работа
Контрольная работа пройдет 05.11.2024 на лекции в R207 в формате письменной работы на 80 минут. Вопросы для подготовки.
Формула оценок
Определим накопленную оценку как Накоп = (0.4 * ДЗ + 0.3 * КР) / 0.7.
Итог = Округление(0.7 * Накоп + 0.3 * Э). Округление арифметическое.
- ДЗ — средняя оценка за домашние задания
- КР — оценка за контрольную работу
- Э — оценка за экзамен
Если Накоп >= 8, то студент может получить Округление(Накоп) в качестве итоговой оценки, не приходя на экзамен.
Формат экзамена: устный.