«Кластеризуй это!» – история студента магистратуры

«Кластеризуй это!» — история студента магистратуры

Иван Усов — магистрант 2 курса программы «Глубокое обучение и генеративный искусственный интеллект». Разработчик рассказал, что нового можно придумать в кластеризации больших данных, как идет работа над проектом по гранту Фонда содействия инновациям и какие дисциплины его воодушевили больше всего в прошедшем учебном году.

— Какие предметы оказались для тебя особенно полезными?

Две дисциплины серьезно расширили мой кругозор. Во-первых — обработка изображений нейронными сетями. Здесь мы изучали, какие существуют архитектуры, подходы, модели, каковы их точность и области применения.

Во-вторых — технологии обработки больших данных. Этот предмет подсказал, как вообще писать ML-проекты, чтобы их не стыдно было показать миру, то есть какие технологии используются, как развернуть, протестировать, настроить процессы, в том числе в распределенных вычислениях.

— На какой технологии специализируешься ты?

Обучение без учителя. В частности, задача кластеризации, которой я начал заниматься с бакалавриата на факультете информационных технологий и программирования ИТМО. Мне интересно адаптировать autoML-подходы для кластеризации ради ускорения процесса оптимизации и упрощения настройки для конечного пользователя.

— Какие цели ты ставил при поступлении в магистратуру?

Год назад мне удалось выиграть грант Фонда содействия инновациям, и чтобы продолжить исследования, я решил остаться в университете. Кроме того, хотелось узнать больше про ML, потому что, очевидно, эта область гораздо шире, чем-то, что нам успели дать в бакалавриате.

Магистратура института прикладных компьютерных наук привлекла еще и тем, что несмотря на позиционирование себя как только научной, дает сильные прикладные навыки, которые можно использовать и в индустрии.

— Где работаешь?

Я являюсь разработчиком Банка «Санкт-Петербург». Хотя моя позиция не связана полностью с ML-специальностью, я приобретаю ценный опыт.

— Какой проект ты выполняешь по гранту?

Мы работаем над проблемами, решения которых пока нигде не нашли. Это достаточно новый подход.

Основной продукт — программа для кластеризации больших распределенных мультимодальных данных. Речь о терабайтах информации, причем не только классической численной, но и текстовой, и визуальной (изображения, видео), в любых комбинациях. Такого еще нигде нет.

Пользователь скачивает нашу библиотеку, разворачивает ее у себя на вычислительном кластере (компьютерных мощностях) и скармливает ей свои данные. Сначала наша программа берет на себя сложный этап их предобработки, затем подбирает алгоритм кластеризации и его гиперпараметры и производит оптимальное разбиение объектов на подмножества.

Все сложные вычисления мы «спрятали под капот» и оставили «снаружи» только дружелюбный интерфейс, поэтому запустить программу получится даже у человека с минимальными навыками разработчика. Утилита бесплатная, код открытый. Единственное, не каждый сможет развернуть и настроить вычислительный кластер (реальные машины), чтобы в принципе работать с большими данными, потому что нужны мощности, а вот запустить и применить нашу программу просто. Мы думаем, что пользоваться будут, в основном, все же компании или научные центры. Наши выкладки сейчас оформляем в научную статью.