Alibaba представила QVQ — ИИ, который умеет рассуждать и анализировать изображения

Alibaba представила QVQ — ИИ, который умеет рассуждать и анализировать изображения

0 29

Китайская компания Alibaba Cloud выпустила новую модель искусственного интеллекта QVQ-72B-Preview, способную анализировать визуальные данные и проводить сложные рассуждения.

Искусственный интеллект QVQ сочетает языковые и визуальные возможности, позволяя ему решать задачи на основе изображений, графиков и схем. Эта мультимодальная модель работает на базе Qwen2-VL-72B и, по заявлению разработчиков, значительно превосходит своих предшественников по ряду показателей.


											
							Alibaba представила QVQ — ИИ, который умеет рассуждать и анализировать изображения


Что умеет нейросеть QVQ

QVQ-72B-Preview впечатляет своими результатами на математических и научных тестах. На ключевом бенчмарке MMMU (тест, оценивающий способность модели к визуальному анализу) она достигла рекордного результата в 70,3 балла, обогнав не только предыдущие версии, но и некоторых конкурентов.

Модель также отлично справилась с задачами олимпийского уровня и визуальными тестами по физике и математике.

На демо-платформе QVQ успешно решила сложную математическую задачу, анализируя данные из таблицы. Используя правило произведения для производных, модель методично вычислила результат. Этот пример демонстрирует её способность к пошаговому анализу, что особенно важно в научных и образовательных задачах.

Несмотря на успехи, модель имеет свои недостатки. Она может:

  • Смешивать языки в одном ответе, что затрудняет понимание;
  • Повторяться в рассуждениях, не приходя к конкретным выводам;
  • Терять фокус при многократном анализе изображения.

Разработчики предупреждают, что QVQ всё ещё находится на стадии тестирования и требует доработок в плане безопасности и точности.

Как пользоваться QVQ

Код модели опубликован на GitHub, а бесплатная демоверсия доступна на Hugging Face. QVQ распространяется по лицензии Apache 2.0.

Среди конкурентов QVQ — Google Gemini 2.0 Flash Thinking, OpenAI o1 и o3, а также китайская DeepSeek 2.5. Однако именно QVQ выделяется своей мультимодальностью и упором на сложные визуальные задачи.

Alibaba планирует интегрировать QVQ в свои образовательные и научные платформы. В будущем компания намерена расширить возможности модели, добавив поддержку дополнительных типов данных.

Ранее мы писали, что OpenAI может создать человекоподобного робота.

НЕТ КОММЕНТАРИЕВ

Оставить комментарий