IA genera imágenes de 360 grados a partir de textos

- Anuncio Publicitario -

Intel Labs, en colaboración con Blockade Labs, presentó Latent Diffusion Model for 3D (LDM3D), un modelo que utiliza inteligencia artificial generativa para crear contenido visual y realista en 3D. LDM3D es el primer modelo de la industria que genera un mapa de profundidad utilizando el proceso de difusión para crear imágenes en 3D con vistas de 360 grados que son vívidas e inmersivas. LDM3D tiene el potencial de revolucionar la creación de contenido, las aplicaciones del metaverso y las experiencias digitales, transformando una amplia gama de industrias, desde el entretenimiento y los videojuegos hasta la arquitectura y el diseño.

La tecnología de inteligencia artificial generativa tiene como objetivo mejorar y potenciar aún más la creatividad humana, a la vez que ahorra tiempo. Sin embargo, la mayoría de los modelos de inteligencia artificial generativa actuales se limitan a generar imágenes en 2D y solo unos pocos pueden generar imágenes en 3D a partir de indicaciones de texto. A diferencia de los modelos de difusión latente estables existentes, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de una indicación de texto dada utilizando casi la misma cantidad de parámetros. Proporciona una profundidad relativa más precisa para cada píxel en una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad, y ahorra a los desarrolladores un tiempo significativo para desarrollar escenas.

- Anuncio Publicitario -

LDM3D fue entrenado con un conjunto de datos construido a partir de un subconjunto de 10.000 muestras de la base de datos LAION-400M, que contiene más de 400 millones de imágenes y descripciones. El equipo utilizó el modelo de estimación de profundidad Dense Prediction Transformer (DPT) de gran profundidad (previamente desarrollado en Intel Labs) para el corpus de entrenamiento. El modelo DPT-large proporciona una profundidad relativa altamente precisa para cada píxel en una imagen. El conjunto de datos LAION-400M se ha creado con fines de investigación para permitir la prueba del entrenamiento del modelo a mayor escala para la comunidad de investigadores y otros interesados. El modelo LDM3D se entrena en un superordenador de IA de Intel alimentado por procesadores Intel Xeon y aceleradores de IA Intel Habana Gaudi. El modelo y el proceso resultantes combinan una imagen RGB generada y un mapa de profundidad para generar vistas de 360 grados para experiencias inmersivas.

- Anuncio Publicitario-
spot_img

Artículos Recientes

Más artículos