Alibaba представила QVQ — ИИ, который умеет рассуждать и анализировать изображения
Китайская компания Alibaba Cloud выпустила новую модель искусственного интеллекта QVQ-72B-Preview, способную анализировать визуальные данные и проводить сложные рассуждения.
Искусственный интеллект QVQ сочетает языковые и визуальные возможности, позволяя ему решать задачи на основе изображений, графиков и схем. Эта мультимодальная модель работает на базе Qwen2-VL-72B и, по заявлению разработчиков, значительно превосходит своих предшественников по ряду показателей.
QVQ-72B-Preview впечатляет своими результатами на математических и научных тестах. На ключевом бенчмарке MMMU (тест, оценивающий способность модели к визуальному анализу) она достигла рекордного результата в 70,3 балла, обогнав не только предыдущие версии, но и некоторых конкурентов. Модель также отлично справилась с задачами олимпийского уровня и визуальными тестами по физике и математике. На демо-платформе QVQ успешно решила сложную математическую задачу, анализируя данные из таблицы. Используя правило произведения для производных, модель методично вычислила результат. Этот пример демонстрирует её способность к пошаговому анализу, что особенно важно в научных и образовательных задачах. Несмотря на успехи, модель имеет свои недостатки. Она может: Разработчики предупреждают, что QVQ всё ещё находится на стадии тестирования и требует доработок в плане безопасности и точности. Код модели опубликован на GitHub, а бесплатная демоверсия доступна на Hugging Face. QVQ распространяется по лицензии Apache 2.0. Среди конкурентов QVQ — Google Gemini 2.0 Flash Thinking, OpenAI o1 и o3, а также китайская DeepSeek 2.5. Однако именно QVQ выделяется своей мультимодальностью и упором на сложные визуальные задачи. Alibaba планирует интегрировать QVQ в свои образовательные и научные платформы. В будущем компания намерена расширить возможности модели, добавив поддержку дополнительных типов данных. Ранее мы писали, что OpenAI может создать человекоподобного робота.
Что умеет нейросеть QVQ
Как пользоваться QVQ