Краткий конспект лекций
Лекция 1. Установочная встреча.
Знакомство с преподавателем. Общая структура курса.
Формирование итоговой оценки. Основные идеи, закладываемые в курс.
Место курса в образовательной программе. Структура лабораторной работы.
LLM
. Типовые задачи NLP
, решаемые с помощью нейросетевых моделей.
Лекция 2. Датасеты в экосистеме HuggingFace.
Экосистема HuggingFace. Поиск подходящего датасета.
Ключевые характеристики датасета: имя, вложенные датасеты,
названия сплитов и их количество, количество колонок, их структура и
необходимость при замере метрики. Установка необходимых библиотек.
Скачивание датасета с помощью load_dataset
. Получение необходимого сплита.
Перевод в формат DataFrame
. Основные задачи при обработке табличных значений.
Перегрузка протоколов в пользовательских классах
для поддержки поведения стандартных типов: итерируемость и взятие длины.
Лекция 3. Инференс языковых моделей.
Структура языковой модели. Препроцессинг датасета. Токенизация входа. Инференс модели через вызов как функции. Постпроцессинг результатов модели. Классификация: взятие индекса логита с максимальным значением.
Лекция 4. Оценка качества работы языковых моделей.
Инференс генерационной модели. Паралелельная обработка нескольких семплов.
Упаковка семплов в батч с помощью DataLoader
. Автоматические метрики качества.
Библиотека evaluate
.