DeepSeek представила обновлённую ИИ-модель VL2
Компания DeepSeek анонсировала новую серию моделей DeepSeek-VL2, которые распознают объекты на изображениях, анализируют схемы и даже объясняют мемы.
Нейросеть создана на основе архитектуры Mixture of Experts (MoE), объединяющей несколько нейросетей для сложных задач.
Что умеет DeepSeek-VL2 и как ей пользоваться
Модель понимает текст на изображениях, включая рукописные записи, таблицы и диаграммы, и может перепечатывать его в цифровом виде. Также она анализирует фото, объясняя их содержание: например, по картинке с продуктами предлагает рецепты.
VL2 умеет находить похожие объекты на разных снимках, но пока не всегда точно интерпретирует сцену — например, на фото с нарушением ПДД она описала машину, но не указала, что она проехала на красный.
DeepSeek-VL2 представлена в трёх вариантах: Tiny (1 млрд параметров), Small (2,8 млрд) и VL2 (4,5 млрд). Они «превосходят» предыдущую модель DeepSeek-VL. Одна из версий, VL2-Small, уже доступна бесплатно на Hugging Face.
Также недавно DeepSeek разработала семейство мультимодальных моделей под названием Janus Pro. Стартап заявляет, что эти модели превосходят аналоги, такие как Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.
Ранее мы также писали, что Яндекс интегрировал генератор картинок от DeepSeek в «Шедеврум».