Riffusion: con l’AI è tutta un’altra musica

L’anno scorso gli sviluppatori Seth Forsgren e Hayk Martiros hanno annunciato un finanziamento di 4 milioni di dollari per la loro app di generazione musicale chiamata Riffusion. Questa applicazione è in grado di creare musica utilizzando un approccio innovativo che ha attirato l’attenzione di molti, entrando fra l’altro nella letteratura scientifica in materia.

Riffusion utilizza il modello di deep learning “Stable Diffusion” per generare musica partendo da prompt testuali, trasformando le parole in spettrogrammi che vengono poi convertiti in suoni. Questo ha portato milioni di utenti a provare l’app, che è stata citata in ricerche di grandi aziende tecnologiche come Meta, Google e ByteDance.

Forsgren e Martiros, a proposito, dichiarano: “Il nostro obiettivo è rendere la creazione musicale accessibile a tutti tramite la tecnologia dell’intelligenza artificiale, permettendo a chiunque di creare brani originali e di esprimersi musicalmente in modo semplice e intuitivo.”

Ma come funziona l’Intelligenza Artificiale Generativa applicata alla musica di Riffusion? E in generale, come funzionano le Generative AI per creare canzoni, suoni e melodie?

 

Riffusion: un nuovo modo di creare musica?

Originariamente lanciata come un progetto hobbistico circa due anni fa, Riffusion ha rapidamente attirato l’attenzione globale grazie alla sua capacità unica di creare musica utilizzando immagini di audio anziché audio tradizionale. La curiosità e l’interesse suscitati da Riffusion non si sono limitati solo agli utenti, ma hanno anche attirato l’attenzione degli investitori.

Recentemente, Forsgren e Martiros hanno annunciato di aver chiuso un round di finanziamento seed di 4 milioni di dollari, guidato da Greycroft con la partecipazione di South Park Commons e Sky9. Questo finanziamento rappresenta un passo importante verso la commercializzazione di Riffusion, che ora è supportata e consigliata, fra l’altro, dal noto duo musicale The Chainsmokers.

Parallelamente al finanziamento, Riffusion ha lanciato una nuova versione dell’app, gratuita e migliorata rispetto alla precedente. Questa versione permette agli utenti di descrivere testi e stili musicali per generare “riff” personalizzati e condivisibili. “Il nuovo Riffusion permette a chiunque di creare musica originale tramite brevi clip audio condivisibili,” ha spiegato Forsgren in un’intervista a TechCrunch. “Dagli aspiranti musicisti a chi desidera semplicemente augurare ‘buongiorno’ in modo creativo, i riff sono una nuova forma di espressione e comunicazione che riducono drasticamente le barriere alla creazione musicale.”

Questo sviluppo non solo rappresenta un avanzamento tecnologico significativo, ma sottolinea anche il crescente interesse e investimento nell’intelligenza artificiale generativa applicata alla musica. Con il continuo supporto finanziario e l’evoluzione tecnologica, Riffusion potrebbe ridefinire il modo in cui concepiamo e creiamo la musica, rendendo la produzione musicale accessibile a un pubblico sempre più ampio.

 

Fra immagini e suoni: un approccio innovativo

Ma come funziona esattamente Riffusion? Questa innovativa applicazione di generazione musicale si basa sull’Intelligenza Artificiale Generativa, utilizzando un modello di Deep Learning chiamato “Stable Diffusion”. Pubblicato nel 2022, Stable Diffusion è progettato per generare immagini di alta qualità a partire da descrizioni testuali, e il suo codice è stato reso pubblico, permettendo ad altri ricercatori di modificarlo e adattarlo per vari scopi.

Stable Diffusion è stato addestrato su un enorme set di dati composto da almeno 5 miliardi di coppie di immagini e didascalie, classificate in base alle loro caratteristiche. Questo gli permette di comprendere e generare immagini dettagliate basate su descrizioni testuali. Seth Forsgren e Hayk Martiros hanno visto il potenziale di Stable Diffusion e hanno deciso di adattarlo per creare immagini di spettrogrammi, ovvero rappresentazioni grafiche dell’intensità di un suono in funzione del tempo e della frequenza.

Uno spettrogramma è una sorta di “fotografia” del suono. Sull’asse orizzontale (asse x) è rappresentato il tempo, mentre sull’asse verticale (asse y) è rappresentata la frequenza. Il colore di ciascun pixel nel grafico indica l’ampiezza sonora alla specifica frequenza e al preciso istante di tempo. Utilizzando una tecnica matematica chiamata “trasformata di Fourier a tempo breve”, è possibile convertire l’audio in uno spettrogramma. Questo processo, tuttavia, è anche invertibile: Forsgren e Martiros hanno quindi utilizzato gli spettrogrammi generati da Stable Diffusion per creare l’audio.

Riffusion quindi consente di generare audio di alta qualità a partire dagli spettrogrammi. Grazie a questa innovazione, Riffusion può prendere una descrizione testuale fornita dall’utente, come ad esempio “una melodia jazz con piano e sassofono”, e convertirla in uno spettrogramma. Questo spettrogramma viene poi trasformato in un brano musicale vero e proprio.

Il risultato è una breve clip audio, chiamata “riff”, che può essere condivisa pubblicamente o con amici. Questo approccio rende la creazione musicale accessibile a tutti, indipendentemente dal livello di competenza musicale, permettendo a chiunque di esprimersi creativamente attraverso la musica.

 

Conclusione

Riffusion rappresenta un esempio affascinante di come l’intelligenza artificiale generativa possa rivoluzionare la creazione musicale, rendendola accessibile a chiunque. L’uso innovativo di spettrogrammi generati da Stable Diffusion per creare musica dimostra le enormi potenzialità di questa tecnologia.

Anche noi di Social Thingum, con la nostra esperienza nello sviluppo di algoritmi di intelligenza artificiale basati su Natural Language Processing e analisi di immagini, riconosciamo l’importanza e l’innovazione di questi sviluppi tecnologici. Per restare aggiornati sulle ultime novità in ambito di Innovazione e Intelligenza Artificiale e capire come gli algoritmi stanno plasmando il mondo di oggi, continua a seguirci su LinkedIn.

 

Per Saperne di Più

https://techcrunch.com/2023/10/17/ai-generating-music-app-riffusion-turns-viral-success-into-4m-in-funding/

https://www.ilsoftware.it/riffusion-creare-tracce-audio-con-l-intelligenza-artificiale_25375/

https://www.smartworld.it/ia/riffusion-ia-testo-musica.html

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

3 × cinque =