Sora: Nova inteligência artificial capaz de criar vídeos de até 1 minuto a partir de textos
Em fevereiro deste ano, a OpenAI, desenvolvedora do ChatGPT, anunciou a Sora. Uma tecnologia capaz de criar vídeos através de texto. Os vídeos promocionais são impressionantes.
O programa pode gerar vídeos de até 1 minuto, mantendo a qualidade visual e a aderência às instruções do usuário.
A Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto. O modelo entende não somente o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico.
TÉCNICAS DE PESQUISA DA SORA
Sora é um modelo de difusão, que gera um vídeo começando com um ruído estático e gradualmente o transforma removendo o ruído ao longo de várias etapas.
Ela é capaz de gerar vídeos inteiros de uma só vez ou estender vídeos gerados para torná-los mais longos. Ao fornecer ao modelo a previsão de muitos quadros ao mesmo tempo, resolvem um problema desafiador de garantir que um objeto permaneça o mesmo quando sai de vista.
Além de poder gerar um vídeo apenas a partir de instruções de texto, o modelo é capaz de pegar uma imagem estática existente e gerar um vídeo a partir dela, animando o conteúdo da imagem com precisão e atenção aos pequenos detalhes. O modelo pode também pegar um vídeo já existente e entendê-lo.
Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditam que será um marco importante para alcançar a AGI.
Semelhante aos modelos GPT, Sora utiliza uma arquitetura de transformador, desbloqueando desempenho de escalabilidade superior.
Representando vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representam os dados, podendo treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto.
SEGURANÇA
Além de desenvolver novas técnicas para se preparar para a implantação, eles aproveitam os métodos de segurança existentes para produtos que usam DALL·E 3, que também são aplicáveis ao Sora.
Por exemplo, o classificador de texto verificará e rejeitará solicitações de entrada de texto que violem políticas de uso, como aquelas que solicitam violência extrema, conteúdo sexual, imagens de ódio, semelhança com celebridades ou IP de terceiros. Também desenvolverá classificadores de imagens robustos que são usados para revisar os frames de cada vídeo gerado para ajudar a garantir que ele cumpra as políticas de uso, antes de ser mostrado para o usuário
TESTES E PROJETO
A SORA ainda está se tornando disponível para os red teamers avaliarem áreas importantes em busca de danos ou riscos. E também está sendo disponível para que designers, artistas visuais e cineastas, para que seja dado um feedback sobre como o produto poderá ser útil para profissionais criativos, além de compartilhar o progresso da pesquisa antecipadamente para começar a trabalhar e obter um feedback de pessoas fora da OpenAI e para dar ao público uma noção de quais recursos de IA estão no processo.
O modelo atual ainda apresenta alguns problemas, como a dificuldade de simular a precisão física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.
O modelo ainda pode ter problemas em confundir detalhes espaciais de um prompt, por exemplo, misturando direita com esquerda e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir trajetórias específicas de câmera.
Em outro artigo, falamos sobre a IA e como ela pode ser utilizada para o seu negócio através do marketing digital. Vale a pena conferir!
Você já conhecia a plataforma? Acredita que será inovadora? Como ela irá impactar a internet?
Gostou do conteúdo? Confira outros artigos em nosso blog!