ByteDance открыла FaceCLIP — модель для генерации лиц выложили на Hugging Face
Компания ByteDance впервые выложила в открытый доступ свою мультимодальную модель FaceCLIP, предназначенную для понимания и генерации человеческих лиц. Теперь её можно протестировать и скачать прямо на платформе Hugging Face.
Ранее нейросеть FaceCLIP использовалась исключительно внутри ByteDance — в исследовательских проектах и тестах для сервисов вроде TikTok и CapCut. Публикация на Hugging Face стала первым случаем, когда компания открыла модель, напрямую связанную с идентичностью и персонализацией. Подробности читайте в материале Postium.

Что умеет нейросеть FaceCLIP
FaceCLIP — это нейросеть, которая «понимает» лицо человека и умеет по описанию создавать его новые изображения.
Если сказать проще — это ИИ, который может взять одну вашу фотографию и сделать из неё, например, портрет в стиле аниме, деловой снимок для резюме или селфи на пляже — при этом лицо останется вашим.

Модель сочетает два подхода: понимание смысла текста, как у CLIP (она знает, что значит «улыбается» или «в очках») и генерацию изображений, как у Stable Diffusion (рисует реалистичные картинки).
FaceCLIP объединяет эти возможности: она превращает фото и текст в общий «вектор» — цифровое представление, которое понимает и лицо, и описание. Благодаря этому модель сохраняет узнаваемость человека, даже если вы меняете стиль, эмоции или фон.

Проще говоря, FaceCLIP — это ИИ, который умеет «рисовать вас» заново, не забывая, как вы выглядите.
Статья в тему: Промты для ИИ-фотосессий
Результаты и качество
По тестам разработчиков, FaceCLIP превосходит существующие подходы вроде ConsisID и IDAnimator:
- Идентичность сохраняется лучше всего — средний показатель похожести (Identity Average) составил 0.516, против 0.414 у ConsisID и 0.349 у IDAnimator.
- Качество видео и изображений выше — модели ByteDance достигают более низкой метрики Inception Distance (176 против 200 у ближайшего конкурента), что означает реалистичность и стабильность результатов.
- Лицо остаётся консистентным под разными углами, без «склейки» и визуальных искажений.

Эти же принципы лежат в основе другой открытой разработки ByteDance — EchoVideo, которая генерирует персонализированные видеоролики по одной фотографии.
Как пользоваться FaceCLIP — краткий гайд
Чтобы использовать нейросеть — нужно скачать её на свой компьютер и запустить, как программу.
Шаг 1. Перейдите на страницу модели на Hugging Face (в разделе ByteDance).
Шаг 2. Зайдите во вкладку «Files and versions» и выберите папку model/ (там лежат веса модели). Скачайте все файлы из этой папки.

Шаг 3. Для локального запуска установите зависимости и загрузите веса, аналогично другим проектам ByteDance, например EchoVideo.
Пример работы с репозиторием ByteDance:
git clone https://huggingface.co/bytedance/FaceCLIP cd FaceCLIP pip install -r requirements.txt python demo.py
Модель поддерживает GPU и NPU, а для запуска подойдёт любая версия Python от 3.10 до 3.12.
Если вы хотите опробовать генерацию видео с сохранением лица, можно воспользоваться проектом EchoVideo. Эта модель создаёт короткие персонализированные клипы по тексту и фото — с сохранением мимики и стиля персонажа.
Ранее модели такого уровня — особенно связанные с лицами — ByteDance не публиковала открыто. Все исследования по идентичности, включая FaceCLIP, EchoVideo или LVFace, оставались внутри компании. Теперь же FaceCLIP выложена на Hugging Face, с документацией и демо, что делает её доступной исследователям, художникам и разработчикам по всему миру.
Важно: FaceCLIP работает с биометрией, поэтому при использовании в продуктах нужно учитывать правовые ограничения и согласие пользователей. На Hugging Face модель распространяется под открытой лицензией, но с предупреждением об этическом применении.
Также, недавно сервис NotebookLM добавил 6 визуальных стилей и режим «Бриф».


