NoHumansRequired: Autonomous High-Quality Image Editing Triplet MiningВышел наш первый препринт из запланированного цикла статей по теме редактирования изображений. Основная мысль, вокруг которой построено повествование, это как бы так автоматизировать процесс сбора данных (триплетов <входное изображение, инструкция, выходное изображение>), чтобы было одновременно и качественно, и без участия человека. Обычно одно из двух (или даже ни одно из).Многие исходят из идеи, что в мире уже понаделано очень много специализированных моделей, они работают неплохо, а значит можно как-то собрать инженерный пайплайн, чтобы на выходе были чистые данные 😳Например, за года развития накоплено множество неплохих данных с сегментацией \ ббоксами объектов и есть inpaint модели, как например разные варианты с FLUX, так что объекты можно заменять почти бесконечно, формируя триплеты. По нашему опыту, такие пайплайны даже имеют приемлемое качество. Но, получить что-то выше «приемлемо», т.е. чистые автоматические данные, так нельзя. Слишком много всего должно быть собрано вручную и с применением клея. Добавляет радости отсутствие в области надёжного автоматического способа оценки результатов редактирования. И, что даже важнее, сильно разнообразных операций таким образом, тоже, конечно, не собрать.А в методах, которых можно разгуляться посильнее, например, в основанных на контроле внимания (Prompt2Prompt), качество будет совсем печальным, см. InstructPix2Pix и его метрики в нашей работе.Очевидное решение — валидировать данные вручную, на крауд-сорсе, например.Но люди тоже ошибаются, а ещё нужно большое перекрытие, всё это не дёшево и медленно, когда нужны десятки миллионов триплетов. Так, конечно, в любой задаче, но именно в инструктивном редактировании совсем нечем надёжно проверить результат и сигнал выходит особенно грязный.В общем, с автовалидацией как с больным зубом — можно какое-то время проблему игнорировать или отодвигать полумерами, можно надеяться на лучшее, но нормально решать всё равно однажды придётся. Нужно, однако, осозновать, для оценки результата редактирования во всём его многообразии модель должна понимать очень много всего от абстрактных вещей до физики нашего мира, что не всегда разгребают даже относительно комплексные модели.Что говорить о моделях поменьше, на которых пытаются ехать многие авторы.Можно попробовать использовать лучшие доступные MLLM по API с каким-то промптом. Но, спойлер, они к этим задачам не адаптированы и пока тянут плохо (числа см. в нашей работе). Мы всё это прошли пару итераций назад, и дошли до того, что используем специально затюненные под задачу ChatGPT и Gemini. Причём без всякого ризонинга.В статье мы описываем подробно, как это сделали и почему так лучше. Таким образом, всё, что нужно для создания данных прямо совсем без участия человека, получается уже создано: ✅ модели, которые будут придумывать сцены и что в них поменять — есть.✅ модели для генерации изображений — есть.✅ модели для редактирования изображений — есть.✅ валидатор — теперь тоже есть.И у всех текстовый интерфейс, а значит можно собрать вместе самых лучших, дать безлимитный запас пива🍻 и попросить общаться. Что-то будет редактироваться не с первого раза, ну так мы повторим, пока не получится.Примерно так мы и поступили. Вышла 🌿 среди датасетов. Конечно, ещё не идеально, но уже бесконечно далеко от типичной синтетики. Поскольку каждый бит информации в пайплайне был получен совершенно без участия человека, такой метод можно даже использовать в цикле самоулучшения с агентом.Короче:— Собрали и опубликовали новый открытый датасет на 358К триплетов с разнообразными операциями, стилями, соотношениями сторон, тематиками и пр — NHR-Edit 📈— Провели самое масштабное и полное сравнение всех датасетов на данный момент.— Описали наш способ валидации и показали, почему он лучший.— Чуть-чуть дообучили на полученных данных нашумевший Bagel от ByteDance и выбили SOTA метрики на открытых бенчмарках 🌿🔗 Датасет, демо Bagel-NHR-Edit, ссылка на статью, всё >> тут <<
Оставить комментарий/отзыв