A Meta apresenta seu novo modelo de IA capaz de gerar música a partir de simples sugestões, assim como o ChatGPT cria textos
A inteligência artificial tem conseguido se infiltrar na maioria das atividades artísticas, e agora chegou com tudo na indústria da música. A Meta anunciou o lançamento da versão de código aberto do seu modelo de geração de música AI, que usa sugestões simples para gerar música como o ChatGPT e outros modelos de linguagem baseados em IA geram texto.
Felix Kreuk, engenheiro de pesquisa em IA da Meta, demonstrou as habilidades do “MusicGen” em um thread no Twitter na semana passada. O sistema pode pegar alguma música e modificá-la, como transformar um refrão musical clássico em uma música pop dos anos 80.
Testes próprios incluíram uma “versão sinfônica do tema de feliz aniversário” pesada em sintetizadores e uma “faixa de hip hop Lo-fi com amostras da natureza, incluindo grilos”. Não há letras incluídas nas músicas por padrão. O Gizmodo testou o sistema tentando uma faixa de áudio opcional com letras de um de seus colaboradores. A sugestão “Canção grunge com baixo pesado e acompanhamento de violino” saiu mais estridente com as letras adicionadas do que a mesma sugestão sem elas.
Ainda não está claro quanto a IA entende sobre determinados compositores.
Embora muitos outros modelos estejam executando geração de texto, sintetização de voz, arte gerada e até vídeo curto, não houve muitos exemplos de qualidade de geração de música divulgados ao público. De acordo com o documento de pesquisa que acompanha, disponível no repositório de preprint arXiv, um dos principais desafios com a música é que ela requer a execução do espectro de frequência total, o que requer uma amostragem mais intensa. Isso sem mencionar as estruturas complexas e a instrumentação sobreposta encontradas na música.
A Meta também comparou seu sistema ao modelo MusicLM de texto para música do Google. A Meta tem sua própria página mostrando as características dos dois modelos para comparação direta.
No entanto, para os artistas, o que pode ser mais preocupante sobre o modelo é seus dados de treinamento. De acordo com o artigo de pesquisa, o MusicGen foi treinado em 20.000 horas de música licenciada de um conjunto de dados interno que inclui 10.000 faixas de música. Além disso, a empresa usou cerca de 390.000 faixas apenas de instrumentos apresentados no Shutterstock e Pond5. Os pesquisadores da Meta afirmaram que toda a música em que seu modelo é treinado foi “coberta por acordos legais com os detentores dos direitos”. Isso inclui um acordo com o Shutterstock.
Vamos ouvir? Comparação dos sistemas
A seguir, uma comparação do MusicGen 3.3B com outros sistemas: MusicLM, usando a demonstração pública do AI Test Kitchen, Riffusion usando os modos pré-treinados fornecidos, e Mousai.
O que foi solicitado a todos: Criar uma faixa clássica de reggae com um solo de guitarra.
MusicGen
MusicLM
Riffusion
Musai
O Shutterstock fez um acordo com a OpenAI, criadora da DALL-E, no ano passado, e já possui sua própria ferramenta de geração de imagens IA que é pré-treinada em todas as imagens dos colaboradores. No entanto, isso não significa que os artistas estejam necessariamente felizes com o uso de seu trabalho para treinar a IA. Alguns artistas já processaram algumas das maiores empresas de arte IA, como Stability AI e Midjourney, com alegações voltadas diretamente para como os conjuntos de dados de IA absorvem grandes quantidades de conteúdo licenciado sem as permissões do usuário.
Isso se torna mais complicado quando grandes empresas de tecnologia como a Meta podem pagar para licenciar conteúdo criativo para uso em sua geração de IA. Para um usuário, o risco de que a IA esteja plagiando diretamente o trabalho de outros músicos, licenciados ou não, paira ao fundo.
Como a maioria das grandes empresas de tecnologia, a Meta tem se concentrado em IA recentemente. Comparada a suas congêneres de tecnologia, a Meta afirmou que deseja lançar mais modelos de código aberto para qualquer pessoa pegar e usar. É uma tática interessante para fazer a empresa se destacar de nomes como OpenAI, Microsoft e Google, que se tornaram cada vez mais secretos.
No entanto, isso não significa que a Meta possa evitar controvérsias, especialmente à medida que os criativos estão preocupados que as empresas usarão a IA para tarefas artísticas em vez de verdadeiros criativos. Em seu artigo, os pesquisadores da Meta reconheceram que a IA “pode representar uma concorrência injusta para os artistas”. Mas eles afirmaram que o uso de modelos abertos pode dar aos amadores e profissionais de música novas ferramentas para fazer música.
Para entrar
Hugging Face – Esta é a demonstração do MusicGen, um modelo simples e controlável para geração de música apresentado em: “Simple and Controllable Music Generation”.
AudioCraft – Audiocraft é uma biblioteca para processamento e geração de áudio com aprendizagem profunda. Possui o compressor/tokenizador de áudio EnCodec de última geração, juntamente com o MusicGen, um LM de geração de música simples e controlável com condicionamento textual e melódico.
MusicGen – MusicGen: Geração de música simples e controlável