empresario_digital_vasa1_microsoft

A revolução dos avatares virtuais para videoconferências sem webcam

Imagine participar de videoconferências com um avatar que não só parece real, mas também reflete perfeitamente suas expressões e emoções, tudo isso sem precisar ligar a webcam. Esse cenário futurista está se tornando realidade graças ao Vasa-1, o novo modelo de IA desenvolvido pela Microsoft Research Asia.

O Vasa, que significa Visual Affect Skill Animator, representa um avanço significativo em relação aos modelos anteriores de animação. Diferente de outros projetos, o Vasa não clona e nem simula vozes, mas utiliza um áudio já existente, que pode ser gravado ou falado especialmente para algum propósito específico. A Microsoft afirma que seu modelo supera os métodos anteriores em termos de realismo, expressividade e eficiência.

Os pesquisadores da Microsoft utilizaram o conjunto de dados VoxCeleb, criado por acadêmicos da Universidade de Oxford, para treinar o Vasa. Esse conjunto inclui mais de um milhão de declarações de celebridades, todas extraídas de vídeos publicados no YouTube. Com essa base, o Vasa consegue gerar vídeos com resolução de 1024×1024 pixels, chegando a 25 quadros por segundo com baixa latência, permitindo seu uso em aplicações de tempo real como videoconferências.

Embora o Vasa represente um avanço impressionante, ele também levanta questões éticas significativas. A capacidade de criar deepfakes convincentes pode ser problemática, especialmente se usada para falsificar interações humanas. Os pesquisadores destacam a importância de desenvolver métodos para detectar falsificações e afirmam que, por questões de privacidade, cada foto de exemplo foi gerada por IA utilizando tecnologias como StyleGAN, um algoritmo de Inteligência Artificial que cria rostos hiper-realísticos de pessoas que não existem .

Os vídeos gerados pelo Vasa ainda apresentam imperfeições que os denunciam como criações de IA, mas poderiam enganar pessoas que não esperam ver uma animação gerada artificialmente. Para evitar usos indevidos, a Microsoft optou por não tornar público o código que alimenta o modelo e está firme em sua posição contra o uso da tecnologia para criar conteúdo enganoso.

Apesar das preocupações, os pesquisadores da Microsoft veem um potencial significativo em aplicações positivas, como melhorar a equidade educacional, aumentar a acessibilidade e oferecer companhia terapêutica. Em testes iniciais, o Vasa foi capaz de gerar vídeos com 25 frames por segundo em modo offline e 12 frames por segundo em transmissões ao vivo, o que indica um futuro promissor para a tecnologia.

Não há uma data definida para o lançamento comercial do Vasa, mas é provável que ele apareça primeiro no Microsoft Teams. A Microsoft também pode fornecer a API do Vasa para outras empresas, o que poderia gerar novas oportunidades de lucro.

A apresentação do Vasa pela Microsoft Research Asia demonstra o potencial transformador das tecnologias de IA em nossa vida cotidiana. No entanto, a implementação dessa tecnologia precisa ser acompanhada de uma consideração cuidadosa sobre suas implicações éticas para garantir que seu impacto seja positivo e responsável.

Novembro 2024

Publicidade

Newsletter

Ao se cadastrar você declara concordar com nossa Política de Privacidade.