Избранное

Мы стали свидетелями множества инновационных методов создания текста, и по мере улучшения этих методов улучшается и создание изображений. Мы также видели невероятные пионерские усилия в создании фильмов и даже трехмерных моделей из текста. Просто представьте, насколько сложно создать что-то, что может напоминать реальный предмет в реальном мире, используя только текст. И вот новый подход, который не является просто первым шагом, а огромным скачком в направлении генерации трехмерных моделей на основе текста.

MV Dream, несмотря на то, что является важным этапом в процессе создания современных игр и медиа, требует много времени для создания трехмерного контента. Талантливые дизайнеры могут тратить часы и даже дни на создание одного трехмерного объекта. Поэтому система, которая позволяет неспециалистам создавать трехмерный контент, является очень ценной.

Существующие шаблонные генераторы, генеративные модели трехмерных объектов и методы преобразования двумерных изображений - это три основных метода производства трехмерных объектов. Из-за ограниченного количества доступных трехмерных моделей и сложности данных, шаблонные генераторы и генеративные модели трехмерных объектов редко применяются для производства произвольных предметов в настоящее время. Оригинальный контент часто ограничивается несколькими категориями, в основном повседневными предметами с простой топологией и текстурами. Однако популярные трехмерные компоненты регулярно сочетаются в коммерческих условиях с сложной, фантастической и, возможно, нереалистичной архитектурой и эстетикой.

Недавние исследования методов преобразования двумерных изображений показывают, что предварительно обученные двумерные модели могут быть использованы для генерации трехмерных моделей. Самыми часто используемыми представлениями являются Dream Fusion и Magic 3D системы, которые используют двумерные модели диффузии в качестве некоего руководства для улучшения трехмерного представления, такого как нерв, через выборку установленных оценок. Эти двумерные модели, созданные на основе огромных наборов данных двумерных изображений, обладают отличной обобщаемостью и могут создавать спекулятивные и неизведанные сценарии, детали которых могут быть указаны с помощью текстового ввода, что делает их полезными инструментами для создания красивых трехмерных объектов.

MV Dream, или многопроекционная диффузия для генерации трехмерных моделей, является моделью диффузии, разработанной исследователями ByteDance, которая может создавать отличные трехмерные представления на основе текстовых подсказок. Подобные модели уже существуют, но MV Dream достигает сравнимого высокого качества и избавляется от двух основных недостатков конкурирующих стратегий. Они часто сталкиваются с проблемой изменения содержания и дилеммой Януса. Например, сгенерированная игра с вафлями изменяет количество и расположение вафель в зависимости от точки обзора, или сгенерированный малыш Йода имеет множество лиц. Вы можете видеть, что MV Dream способен понимать физику; всего одна строка текста приводит к созданию очень хорошей трехмерной модели. Как это круто? Но еще круче то, как это работает. Итак, давайте начнем прямо сейчас.

ByteDance обучает модель диффузии, такую как стабильная диффузия, чтобы решить эту проблему, используя множество видов трехмерных объектов и типичные пары изображений. Для этого исследователи создают большой набор трехмерных моделей с различных точек зрения и углов камеры. По словам исследователей, это удалось благодаря сочетанию многопроекционного набора данных, созданного из трехмерных компонентов, с моделями диффузии изображений, которые уже были обучены на больших наборах данных из Интернета.

Адаптивность двумерных моделей слияния и согласованность трехмерных данных объединяются для создания конечной модели многопроекционной диффузии. В результате она служит важной многопроекционной ссылкой для создания трехмерного материала с использованием выборки оценок, значительно улучшая стабильность существующих методов преобразования двумерных изображений путем решения проблемы согласованности трехмерных данных.

Команда также отмечает, что модель многопроекционной диффузии может быть настроена с помощью всего нескольких входных образцов, что делает ее подходящей для индивидуальной генерации трехмерных моделей, например, в приложении Dreamboot 3D. В таких случаях модель все равно способна сохранять согласованность, одновременно изучая идентификацию объекта. Когда вы смотрите на трехмерную модель, самыми большими проблемами являются создание реалистичных и высококачественных изображений с каждого ракурса. Эти взгляды должны быть пространственно связанными.

Один из общих методов создания 3D-моделей заключается в воспроизведении угла обзора камеры, а затем создании того, что должна видеть камера с этой точки зрения. Поскольку мы создаем типичные изображения и объединяем их для просмотра полной 3D-сцены, этот процесс известен как 2D-подъем. Затем пройдите через каждый угол, который может быть взят с объекта. Мы привыкли видеть подобные артефакты, поскольку модель пытается создать один вид за раз и недостаточно понимает всю сущность предмета в 3D-среде. Затем, будьте мечтателями, сделайте значительный шаг в этом отношении. Приняв метод, известный как выборка сжатия оценки, который объединяет мечту, разработанную другим текстом 3D-методологии. Они решают то, что мы называем проблемой 3D-согласованности и даже утверждают, что решили ее. Какую технологию они используют? Мы должны понять, что их архитектура, прежде чем перейти к методу выборки сжатия оценки, является еще одной 2D-моделью диффузии изображения, аналогичной стабильной диффузии, среднему путешествию или долли. Чтобы быть более точными, они начали с модели мечтательной будки, которая уже была обучена. Мечтательная будка - это мощная модель с открытым исходным кодом, которая создает визуальные образы на основе стабильной диффузии. Затем, после обучения на 3D-наборе данных многочисленных объектов, они модифицировали ее для генерации набора мультиплексных изображений, а не только одного изображения. Здесь мы используем 3D-объект из их набора данных и несколько видов, чтобы обучить модель производить виды в обратном порядке. Это достигается путем замены синего блока самовнимания, видимого ниже, на 3D-блок, добавляя размерность для восстановления нескольких изображений вместо одного. Чтобы помочь модели понять, куда направляется изображение и какой вид должен быть сгенерирован, вы можете видеть ниже, что камера и временной шаг являются дополнительными входами для каждого вида. Поскольку все фотографии теперь связаны и создаются совместно, они могут обмениваться информацией и лучше понимать общий контекст.

После подачи вашего текста вы обучаете модель точно восстанавливать объекты из набора данных. В этом случае они используют свой метод мультиплексной выборки сжатия оценки. Однако у них теперь есть модель мультиплексной диффузии, которая может предоставить множество видов предмета. Они также должны были восстановить надежные 3D-модели, а не только виды. Для этого часто используются нейронные радиационные поля Nurefore, как и в случае с Dreamfusion, о котором мы ранее упоминали. Их модель мультиплексной диффузии обучается и замораживается. Например, она используется, но не обучается. Используя модель мультиплексной диффузии, мы создаем начальную версию изображения, которая зависит от подписи и имеет дополнительный шум. Мы добавляем шум, чтобы предоставить модели информацию, необходимую для создания отдельной версии изображения, сохраняя при этом контекст. Затем модель используется для создания изображения более высокого качества, чтобы использовать это в качестве руководства и улучшить модель Nerf для следующего этапа, загрузить изображение, используемое для ее создания, и удалить вручную вставленный шум. Все это делается для того, чтобы помочь нам более ясно понять, на какой части изображения модель Nerf должна сосредоточиться, чтобы дать лучшие результаты на следующем этапе. И мы продолжаем делать это, пока 3D-модель не станет идеальной. У этого нового метода все еще есть некоторые недостатки, главным из которых является низкое разрешение генерации, которое составляет всего 256x256, несмотря на потрясающий внешний вид результатов. Также упоминается ограничение обобщаемости подхода из-за слишком маленького размера используемого набора данных для этого задания, который недостаточно точно отображает наш сложный мир. Что делает MV Dream особенным? Коллекция мультиплексных фотографий, созданных MV Dream, согласована друг с другом. Чтобы унаследовать их обобщаемость, он включает модели обучения передачи, которые уже были обучены и разработаны на основе архитектуры моделей диффузии 2D-изображений. MV Dream создает мультиплексные изображения из реального 3D-набора данных для достижения согласованности и обобщаемости. Путем решения проблемы 3D-согласованности. Проблема: MV Dream улучшает стабильность существующих 2D техник подъема и использует выборку дистилляции оценок сотрудников для создания 3D контента под мультипространственным наблюдением из модели диффузии. Это позволяет MV Dream создавать неожиданный и вымышленный 3D контент на основе текстового ввода.

Автор: Рустам Федотов

Комментарии