Краткий конспект лекций

Лекция 1. Установочная встреча.

Знакомство с преподавателем. Общая структура курса. Формирование итоговой оценки. Основные идеи, закладываемые в курс. Место курса в образовательной программе. Структура лабораторной работы. LLM. Типовые задачи NLP, решаемые с помощью нейросетевых моделей.

Лекция 2. Датасеты в экосистеме HuggingFace.

Экосистема HuggingFace. Поиск подходящего датасета. Ключевые характеристики датасета: имя, вложенные датасеты, названия сплитов и их количество, количество колонок, их структура и необходимость при замере метрики. Установка необходимых библиотек. Скачивание датасета с помощью load_dataset. Получение необходимого сплита. Перевод в формат DataFrame. Основные задачи при обработке табличных значений. Перегрузка протоколов в пользовательских классах для поддержки поведения стандартных типов: итерируемость и взятие длины.

Лекция 3. Инференс языковых моделей.

Структура языковой модели. Препроцессинг датасета. Токенизация входа. Инференс модели через вызов как функции. Постпроцессинг результатов модели. Классификация: взятие индекса логита с максимальным значением.

Лекция 4. Оценка качества работы языковых моделей.

Инференс генерационной модели. Паралелельная обработка нескольких семплов. Упаковка семплов в батч с помощью DataLoader. Автоматические метрики качества. Библиотека evaluate.