Заявление режиссера
Как я это создал?
Я объединил несколько рабочих процессов в ComfyUI, чтобы создать визуальную идентичность фильма. Мне хотелось добиться текстуры и аналогового звучания старых конвейеров Stable Diffusion, поэтому, хотя SDXL был выпущен в 2024 году, я построил ядро рабочего процесса вокруг его латентного масштабирования. При правильном использовании он по-прежнему создает яркий и кинематографический вид, соответствующий атмосфере, которую я помнил по пустыне.
Визуальная основа была взята из моих собственных фотографий. Во время моих путешествий по пустыне Сонора, особенно в Национальном парке Сагуаро, я сделал сотни снимков пейзажей, растений, животных и условий освещения. Эти фотографии определили тон фильма и послужили эталонным материалом для моделей LoRa. На этом этапе я сосредоточился только на достижении последовательного внешнего вида персонажей и правдоподобного мира фильма. Только после того, как модели LoRa стали стабильными и естественными, я начал анимировать их в конвейерах преобразования изображения в видео. Процесс стал сочетанием полевой фотографии, латентного масштабирования SDXL, созданных вручную входных данных и тщательной настройки LoRa.
Трудности
Самой большой трудностью было поддержание визуальной и сюжетной согласованности для реалистичной эстетики 35-мм фильмов 1970-х годов с ощущением современного блокбастера, до появления таких инструментов, как Nano Banana или Flux. Я полагался исключительно на раскадровку в MS Paint + SDXL, обучая пользовательские модели LoRa с нуля, используя изображения персонажей, подготовленные в Photoshop, а затем вручную обрабатывая каждый входной сигнал — часто покадрово — для конвейеров преобразования изображения в видео, чтобы обеспечить непрерывность. Вычислительные требования были невероятно высокими: создание генераций ComfyUI с последующим масштабированием в SDXL часто занимало более 15 минут каждая, превращая отдельные итерации в часы и доводя оборудование и терпение до предела для длинных, стабильных последовательностей.
С художественной точки зрения, демонстрация умиротворения деревни, травмы и подразумеваемого насилия с точки зрения молодого коренного американца требовала тщательной композиции кадра, деталей и постановки, соответствующих рейтингу PG-13, чтобы оставаться уважительным, одновременно передавая эмоциональную правду; гибкость ComfyUI позволяла осуществлять точный контроль без каких-либо ограничений. Сложные кадры включали сцену с пьяным Стрелом, где использовалось едва заметное движение фона и правдоподобная нить слюны, финальный кадр, сшитый из шести рендеров, на создание которого ушло почти два дня, и последовательность галлюцинаций из 47 клипов, построенную как один плавный, похожий на сон, дубль, созданный с помощью многочисленных семеноводств, переходов и коррекций.
Синхронизация губ была серьёзным недостатком, потребовавшим ручной настройки с помощью Wan и LivePortrait в ComfyUI методом проб и ошибок. Цветокоррекция оказалась самой сложной задачей: различные шумовые паттерны ИИ не позволяли единой LUT-таблице объединить фильм, вынуждая выполнять покадровую работу в Premiere Pro. Даже после нескольких дней работы цвета менялись между эталонными мониторами и телевизорами, демонстрируя непредсказуемую цветовую механику ИИ-видео и будущую важность специалистов-профессионалов.
Достижения
Я хотел, чтобы главный герой и его сообщество выглядели естественно и правдоподобно, поэтому я создал лингвистическую основу вымышленного языка коренных народов. С помощью моделей LLM я изучал исторические словари племен, коренных жителей пустыни Сонора, и объединил элементы нескольких сохранившихся языков. В результате получился упрощенный диалект, который вполне мог существовать в 1840-х годах.
Я сочинил две оригинальные песни и написал тексты на этом искусственном языке. Я записал базовые мелодии и использовал инструменты искусственного интеллекта для уточнения и доработки звучания. Этот процесс стал чем-то большим, чем просто техническим упражнением. Это было похоже на то, как будто я дал голос культуре, которую история замолчала. Это моя небольшая дань уважения забытым племенам пустыни Сонора.
Я искренне горжусь звуком и эффектами в фильме. Аудио работает даже без музыки, выдерживая эмоциональную нагрузку самостоятельно. Я оставил саундтрек только для того, чтобы добавить акцент и придать монтажу более динамичный ритм. Каждая голосовая реплика и каждый слой окружения были созданы с помощью Eleven Labs, что придало миру ощущение присутствия, которое удивило даже меня.
Авторские права и авторство
Этот фильм создан в полном соответствии с законодательством ЕС и Польши об авторском праве. Процесс создания фильма был полностью задокументирован для обеспечения четкого контроля со стороны человека и сохранения авторских прав. Все визуальные элементы были созданы на основе моделей LoRa, обученных исключительно на моих собственных фотографиях. Персонажи основаны на моем изображении и изображениях моих соавторов, давш...
Информация по комментариям в разработке