Лучшие магистерские диссертации выпускников программы «Глубокое обучение и генеративный ИИ»

Лучшие магистерские диссертации выпускников программы
«Глубокое обучение и генеративный ИИ»

Этим летом магистратуру «Глубокое обучение и генеративный искусственный интеллект» окончили еще 15 квалифицированных специалистов. Они уже работают исследователями и программистами в MWS AI, Сбербанке, Сколтехе, Т-Банке, Arm Holdings и других компаниях. Какими темами они занимались во время обучения, расскажем на примере трех лучших выпускных работ этого года.

Алан-Барсаг Газзаев

Разработка алгоритма дообучения языковой модели для приобретения навыка рассуждений

Увеличение количества вычислений во время инференса — относительно новый тренд, который позволяет улучшить производительность LLM на разных бенчмарках. В своей работе я предложил три метода тест-тайм скейлинга, то есть поиска наилучшего решения в некотором пространстве решений. По каждому из методов написал и подал статьи: две статьи на конференцию Neuroinformatics 2025 (Москва, Россия) и одну на воркшоп конференции COLM (Монреаль, Канада) в качестве соавтора.

Первый метод рассуждений позволяет LLM генерировать сразу несколько гипотез при решении математических задач. После этого LLM выбирает наилучшую гипотезу в качестве финального ответа. Это повышает интерпретируемость модели и качество на бенчмарках MATH 500 и RuMultiAr.

Мой метод рассуждений основан на двух других: классические рассуждения и Best-of-N. В чем его преимущества? В отличие от классических рассуждений, новый метод позволяет генерировать сразу несколько траекторий рассуждений. А в отличие от метода Best-of-N, генерация разных гипотез и выбор лучшей происходит за один запуск модели и без вспомогательной модели вознаграждения. Этот метод можно применять для планирования действий робота. Например, LLM/VLM с таким навыком может сгенерировать сразу несколько наборов действий для робота, а затем самостоятельно выбрать лучший набор действий.

Второй метод заключается в создании архитектуры Reasoner-MoE. Эта архитектура содержит MLP-слои рассуждающей и нерассуждающей модели. В итоге получается сбалансированная LLM, которая в среднем лучше базовых моделей, лежащих в ее основе. Преимущество Reasoner-MoE в том, что она позволяет в нужный момент включить или выключить рассуждения благодаря архитектуре смеси экспертов.

Третий метод — это создание мультиагентной системы для оценки языковых моделей. Система состоит из трех агентов: первые два высказывают свою позицию, а агент-судья выносит общий вердикт на основе этих высказываний. Я предложил две схемы работы: Soft — когда второй агент соглашается либо не соглашается с первым, и Hard — когда второй агент всегда не соглашается с первым. Такая мультиагентная система позволяет повысить корреляцию с человеческими разметками по сравнению с одиночной языковой моделью-судьей.

Мне очень интересна тема рассуждающих языковых моделей, поэтому в дальнейшем хочется продолжать исследования в этой области. Следующим шагом теоритически может стать применение рассуждений к диффузионным LLM.

Мария Дзюба

Разработка критерия качества для применения в задаче генерации русскоязычных комментариев к программному коду с использованием больших языковых моделей

Моя магистерская работа посвящена решению проблемы автоматической генерации качественных русскоязычных структурированных комментариев (docstrings) к программному коду. Основная сложность в этой задаче заключается в отсутствии специализированных данных и адекватных методов оценки для русского языка.

В своей работе я, во-первых, создала первый русскоязычный бенчмарк MERA. Code и обучающий набор данных со структурированными комментариями (описывающими параметры, возвращаемые значения, исключения). Это критически важно, так как существующие англоязычные наборы непригодны для русского языка: прямой перевод искажает технические термины и смысл, а сами комментарии часто неструктурированы. Во-вторых, я разработала новый критерий качества комментариев к коду, который не требует эталонного комментария для сравнения (reference-free). Этот критерий оценивает комментарий по нескольким ключевым аспектам (релевантность, полнота, информативность, длина текстового описания) одновременно, исправляя недостатки существующих метрик.

Мое решение предлагает несколько ключевых преимуществ по сравнению с существующими подходами. Я создала компактную и эффективную модель, способную работать локально, например, на одном GPU уровня A100. Это обеспечивает:

значительно меньшую стоимость развертывания и использования по сравнению с облачными проприетарными решениями типа GitHub Copilot (который требует подписки и передачи кода в облако),
повышенную безопасность: код не покидает инфраструктуру разработчика, что критично для проектов с высокими требованиями к безопасности данных (госсектор, финансы),
быстроту инференса, так как локальное развертывание обеспечивает быструю отправку ответа моделью.

Разработанный критерий качества используется для эффективной фильтрации обучающих данных. Удаление некачественных или противоречивых комментариев ведет к обучению более точных моделей, генерирующих лучшие комментарии. На отфильтрованных данных моя компактная модель превосходит по качеству генерации GitHub Copilot для русскоязычных docstrings. Критерий качества интерпретируем (оценивает отдельные аспекты) и может быть внедрен непосредственно в IDE. Это дает разработчикам мгновенную обратную связь о качестве существующих комментариев, указывая конкретные слабые места (например, «не описаны параметры», «неясное объяснение логики»), что позволяет целенаправленно улучшать документацию кодовой базы.

Результаты моей работы имеют широкий спектр применения и значительный социальный потенциал для:

русскоязычных команд разработчиков. Основное применение — создание практичных помощников-программистов, интегрированных в IDE (аналогично Copilot, но для русского языка), которые генерируют качественные docstrings на родном языке. Это снизит когнитивную нагрузку, ускорит онбординг новых разработчиков, улучшит понимание и поддержку кода, особенно в проектах с российской спецификой (законодательство, госуслуги, локализованные продукты).
образования. Помощь студентам в изучении программирования и лучших практик документирования на русском языке.
повышения качества ПО. Улучшение документации ведет к более надежному, понятному и легко поддерживаемому программному обеспечению, которое создают русскоязычные команды.
безопасности и суверенитета. Локальное развертывание решений обеспечивает независимость от зарубежных сервисов и защищает интеллектуальную собственность и исходный код.

В июле этого года мы открыто выпустили набор данных и бенчмарк MERA. Code как часть проекта MERA. Надеемся, что это внесет значительный вклад в сообщество.

Также по результатам работы планируется несколько выступлений на конференциях. Научная статья StRuCom: A Novel Dataset of Structured Code Comments принята на Student Research Workshop конференции ACL 2025 (ранг A*), которая в конце июля прошла в Вене, Австрия. Еще одну научную статью по MERA. Code мы подаем на конференцию EMNLP 2025 (ранг A*), которая пройдет в ноябре в Сучжоу, Китай. Также работа уже была представлена на индустриальной конференции Open Data Science DataFest 2025 в рамках трека AI4SE.

Илья Шамов

Разработка метода локализации токсичного текста в низкоресурсных языках

В своей ВКР я предложил метод обучения языковых моделей, устойчивый к искажениям текста. Например, пользователи могут в комментариях писать «дур@к» или «дYp@k» в попытках обойти модерацию контента. Современные языковые модели не распознают в этом токсичности, а предложенное мною решение на такое способно.

В основе моего метода лежит подход byte latent transformer. Я его доработал, и вместо энтропийной токенизации использовал char-level модель. Полученные подстроки позволяют сократить токен-длину текста и сделать модель устойчивее к его искажениям. Такой подход позволяет создавать быстрые системы обработки данных.

Метод очень гибкий, его можно использовать как на больших, так и на маленьких языковых моделях. Он отлично подойдет для улучшения модерации соцсетей и отзывов на картах — то есть тех площадок, где пользователи намеренно искажают текст.