A OpenAI, criadora do Chat GPT, apresentou, nesta quinta-feira (15), seu mais recente avanço: o Sora, um modelo de inteligência artificial capaz de criar vídeos realistas a partir de textos curtos. Embora ainda não esteja disponível ao público, especialistas já estão analisando suas capacidades.
Segundo a empresa de tecnologia, o Sora pode gerar vídeos de até 60 segundos com cenas detalhadas e movimentos de câmera complexos, com personagens expressando emoções vibrantes, seja em forma de animações quanto vídeos com estilo realista. "O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico", explicou a OpenAI.
A técnica utilizada, chamada de "difusão", começa com um ruído estático e gradualmente transforma-o em uma representação reconhecível. "O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]", afirma a OpenAI.
Embora promissor, o Sora ainda tem limitações, como dificuldades em reproduzir fielmente a física complexa de uma cena e compreender lógicas de causa e efeito. A OpenAI está trabalhando em medidas de segurança antes de disponibilizá-lo ao público, incluindo colaborações com especialistas em áreas como desinformação e conteúdo prejudicial.
"O modelo também pode confundir detalhes espaciais de um 'prompt', por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera", destacou a empresa.
Com informações do g1