Нейроканал
15 января 2026, 18:26
Zhipu (они же Z ai, которые сделали GLM-4
Модель тут же вырвалась на первое место в трендах хагинфейса. Главная фишка — текст на картинках. На бенчмарке CVTG-2K по точности рендера текста: GLM-Image — 91%, GPT Image 1 — 85%, FLUX.1 Dev — 49%. Если нужны постеры, мемы, UI-мокапы с читаемыми надписями — это сейчас лучший опенсорс-вариант. Схожие результаты показывает Seedream 4.5 (тоже очень крутая), но она закрытая.
Ещё одна фишка — text-to-image и image-to-image в одной модели. Т.е. редактирование, стилизация, сохранение персонажа между картинками и прочее. Можно и генерить картинки, и потом их редачить.
Под капотом авторегрессионный генератор (9B, на базе GLM-4-9B) + диффузионный декодер (7B на DiT). Первый отвечает за понимание промпта и семантику, второй — за детализацию и финальный рендер.
Из минусов — модель тяжёлая, рекомендуют 80GB VRAM. У первых юзеров на тестах в пике 43GB, но всё равно на 24-гиговых карточках не запустится. И инференс пока медленный, оптимизации ещё допиливают.