Лучшие магистерские диссертации выпускников программы «Глубокое обучение и генеративный ИИ»
Лучшие магистерские диссертации выпускников программы
«Глубокое обучение и генеративный ИИ»
Этим летом магистратуру «Глубокое обучение и генеративный искусственный интеллект» окончили еще 15 квалифицированных специалистов. Они уже работают исследователями и программистами в MWS AI, Сбербанке, Сколтехе, Т-Банке, Arm Holdings и других компаниях. Какими темами они занимались во время обучения, расскажем на примере трех лучших выпускных работ этого года.
  • Алан-Барсаг Газзаев
Разработка алгоритма дообучения языковой модели для приобретения навыка рассуждений

Увеличение количества вычислений во время инференса — относительно новый тренд, который позволяет улучшить производительность LLM на разных бенчмарках. В своей работе я предложил три метода тест-тайм скейлинга, то есть поиска наилучшего решения в некотором пространстве решений. По каждому из методов написал и подал статьи: две статьи на конференцию Neuroinformatics 2025  (Москва, Россия) и одну на воркшоп конференции COLM (Монреаль, Канада) в качестве соавтора.

Первый метод рассуждений позволяет LLM генерировать сразу несколько гипотез при решении математических задач. После этого LLM выбирает наилучшую гипотезу в качестве финального ответа. Это повышает интерпретируемость модели и качество на бенчмарках MATH 500 и RuMultiAr.

Мой метод рассуждений основан на двух других: классические рассуждения и Best-of-N. В чем его преимущества? В отличие от классических рассуждений, новый метод позволяет генерировать сразу несколько траекторий рассуждений. А в отличие от метода Best-of-N, генерация разных гипотез и выбор лучшей происходит за один запуск модели и без вспомогательной модели вознаграждения. Этот метод можно применять для планирования действий робота. Например, LLM/VLM с таким навыком может сгенерировать сразу несколько наборов действий для робота, а затем самостоятельно выбрать лучший набор действий.

Второй метод заключается в создании архитектуры Reasoner-MoE. Эта архитектура содержит MLP-слои рассуждающей и нерассуждающей модели. В итоге получается сбалансированная LLM, которая в среднем лучше базовых моделей, лежащих в ее основе. Преимущество Reasoner-MoE в том, что она позволяет в нужный момент включить или выключить рассуждения благодаря архитектуре смеси экспертов.

Третий метод — это создание мультиагентной системы для оценки языковых моделей. Система состоит из трех агентов: первые два высказывают свою позицию, а агент-судья выносит общий вердикт на основе этих высказываний. Я предложил две схемы работы: Soft — когда второй агент соглашается либо не соглашается с первым, и Hard — когда второй агент всегда не соглашается с первым. Такая мультиагентная система позволяет повысить корреляцию с человеческими разметками по сравнению с одиночной языковой моделью-судьей.

Мне очень интересна тема рассуждающих языковых моделей, поэтому в дальнейшем хочется продолжать исследования в этой области. Следующим шагом теоритически может стать применение рассуждений к диффузионным LLM.
  • Мария Дзюба
Разработка критерия качества для применения в задаче генерации русскоязычных комментариев к программному коду с использованием больших языковых моделей

Моя магистерская работа посвящена решению проблемы автоматической генерации качественных русскоязычных структурированных комментариев (docstrings) к программному коду. Основная сложность в этой задаче заключается в отсутствии специализированных данных и адекватных методов оценки для русского языка.

В своей работе я, во-первых, создала первый русскоязычный бенчмарк MERA. Code и обучающий набор данных со структурированными комментариями (описывающими параметры, возвращаемые значения, исключения). Это критически важно, так как существующие англоязычные наборы непригодны для русского языка: прямой перевод искажает технические термины и смысл, а сами комментарии часто неструктурированы. Во-вторых, я разработала новый критерий качества комментариев к коду, который не требует эталонного комментария для сравнения (reference-free). Этот критерий оценивает комментарий по нескольким ключевым аспектам (релевантность, полнота, информативность, длина текстового описания) одновременно, исправляя недостатки существующих метрик.

Мое решение предлагает несколько ключевых преимуществ по сравнению с существующими подходами. Я создала компактную и эффективную модель, способную работать локально, например, на одном GPU уровня A100. Это обеспечивает:
  1. значительно меньшую стоимость развертывания и использования по сравнению с облачными проприетарными решениями типа GitHub Copilot (который требует подписки и передачи кода в облако),
  2. повышенную безопасность: код не покидает инфраструктуру разработчика, что критично для проектов с высокими требованиями к безопасности данных (госсектор, финансы),
  3. быстроту инференса, так как локальное развертывание обеспечивает быструю отправку ответа моделью.
Разработанный критерий качества используется для эффективной фильтрации обучающих данных. Удаление некачественных или противоречивых комментариев ведет к обучению более точных моделей, генерирующих лучшие комментарии. На отфильтрованных данных моя компактная модель превосходит по качеству генерации GitHub Copilot для русскоязычных docstrings. Критерий качества интерпретируем (оценивает отдельные аспекты) и может быть внедрен непосредственно в IDE. Это дает разработчикам мгновенную обратную связь о качестве существующих комментариев, указывая конкретные слабые места (например, «не описаны параметры», «неясное объяснение логики»), что позволяет целенаправленно улучшать документацию кодовой базы.

Результаты моей работы имеют широкий спектр применения и значительный социальный потенциал для:
  • русскоязычных команд разработчиков. Основное применение — создание практичных помощников-программистов, интегрированных в IDE (аналогично Copilot, но для русского языка), которые генерируют качественные docstrings на родном языке. Это снизит когнитивную нагрузку, ускорит онбординг новых разработчиков, улучшит понимание и поддержку кода, особенно в проектах с российской спецификой (законодательство, госуслуги, локализованные продукты).
  • образования. Помощь студентам в изучении программирования и лучших практик документирования на русском языке.
  • повышения качества ПО. Улучшение документации ведет к более надежному, понятному и легко поддерживаемому программному обеспечению, которое создают русскоязычные команды.
  • безопасности и суверенитета. Локальное развертывание решений обеспечивает независимость от зарубежных сервисов и защищает интеллектуальную собственность и исходный код.
В июле этого года мы открыто выпустили набор данных и бенчмарк MERA. Code как часть проекта MERA. Надеемся, что это внесет значительный вклад в сообщество.

Также по результатам работы планируется несколько выступлений на конференциях. Научная статья StRuCom: A Novel Dataset of Structured Code Comments принята на Student Research Workshop конференции ACL 2025 (ранг A*), которая в конце июля прошла в Вене, Австрия. Еще одну научную статью по MERA. Code мы подаем на конференцию EMNLP 2025 (ранг A*), которая пройдет в ноябре в Сучжоу, Китай. Также работа уже была представлена на индустриальной конференции Open Data Science DataFest 2025 в рамках трека AI4SE.
  • Илья Шамов
Разработка метода локализации токсичного текста в низкоресурсных языках

В своей ВКР я предложил метод обучения языковых моделей, устойчивый к искажениям текста. Например, пользователи могут в комментариях писать «дур@к» или «дYp@k» в попытках обойти модерацию контента. Современные языковые модели не распознают в этом токсичности, а предложенное мною решение на такое способно.

В основе моего метода лежит подход byte latent transformer. Я его доработал, и вместо энтропийной токенизации использовал char-level модель. Полученные подстроки позволяют сократить токен-длину текста и сделать модель устойчивее к его искажениям. Такой подход позволяет создавать быстрые системы обработки данных.

Метод очень гибкий, его можно использовать как на больших, так и на маленьких языковых моделях. Он отлично подойдет для улучшения модерации соцсетей и отзывов на картах — то есть тех площадок, где пользователи намеренно искажают текст.