Сбер представил модель GigaEmbeddings, которая существенно расширяет возможности бизнеса в обработке русскоязычных текстов. Разработка предназначена для улучшения интеллектуального поиска, чат-ботов и других NLP‑систем, работающих с текстовой информацией.
Научная основа и ключевые особенности
О разработке подробно рассказано в научной статье «GigaEmbeddings — эффективная модель векторных представлений для русского языка», представленной на престижной конференции ACL 2025.
GigaEmbeddings создана на базе языковой модели GigaChat‑3B и проходит трёхэтапный процесс обучения:
Оптимизация архитектуры позволила сократить объём параметров на 25% без потери качества. Модель уже доступна для тестирования на GitVerse и HuggingFace.
GigaEmbeddings создана на базе языковой модели GigaChat‑3B и проходит трёхэтапный процесс обучения:
- Предварительное обучение — формирование базовых языковых представлений.
- Точная настройка — адаптация модели под конкретные задачи.
- Мультизадачное обучение — одновременное обучение на нескольких типах задач для повышения универсальности.
Оптимизация архитектуры позволила сократить объём параметров на 25% без потери качества. Модель уже доступна для тестирования на GitVerse и HuggingFace.
Решение актуальных проблем бизнеса
До появления GigaEmbeddings качественных инструментов для работы с русским языком было немного. Существующие решения либо требовали значительных вычислительных мощностей, либо не обеспечивали достаточную точность при поиске, классификации и кластеризации текстов.
Новая модель помогает преодолеть эти ограничения, предоставляя бизнесу более быстрый, точный и экономичный инструмент для задач:
Новая модель помогает преодолеть эти ограничения, предоставляя бизнесу более быстрый, точный и экономичный инструмент для задач:
- Интеллектуальный поиск в e‑commerce, включая точную интерпретацию пользовательских запросов на маркетплейсах.
- Расширенные чат-боты и RAG‑системы для автоматизированного взаимодействия с клиентами.
- Анализ обращений клиентов в банках и финтехе.
- Персонализированные рекомендации в медиа, ритейле и сервисах доставки.
«Сегодня мы закрываем критически важную потребность рынка в качественных NLP‑решениях для русского языка. Наша платформа позволяет оптимизировать весь спектр работы с текстами — от базового поиска и рекомендаций до передовых RAG‑систем в чат-ботах. Компании наконец-то получают единое решение, без необходимости собирать функционал из разных зарубежных продуктов. Мы рассчитываем, что GigaEmbeddings станет новым отраслевым стандартом, особенно для финансового сектора, ритейла и госуслуг», — отметил Фёдор Минькин, технический директор GigaChat Сбербанка.