AI Training Data: milioni di brani in dataset di Suno e Udio

annuncio

L’addestramento dei modelli di intelligenza artificiale musicale continua a essere uno dei temi più controversi dell’intero settore. Ora una nuova indagine di The Atlantic rende il dibattito molto più concreto: grazie a quattro database consultabili gratuitamente, chiunque può verificare se il proprio nome artistico o i propri brani compaiono nei dataset utilizzati per l’AI Training Data associato a piattaforme come Suno, Udio e ai progetti musicali di Google.

A prima vista sembra una vittoria per la trasparenza. In parte lo è davvero. Tuttavia, osservando più da vicino ciò che emerge dall’indagine, la situazione appare molto meno rassicurante di quanto potrebbe sembrare.

Indice

Il segreto dietro gli AI Training Data

L’iniziativa fa parte del progetto “AI Watchdog” di The Atlantic e mette a disposizione quattro database ricercabili che raccolgono complessivamente oltre 20 milioni di brani musicali collegati, direttamente o indirettamente, all’ecosistema dell’intelligenza artificiale generativa applicata alla musica.

Tra gli elementi più rilevanti emersi dall’inchiesta troviamo:

Oltre 20 milioni di canzoni presenti nei database analizzati.
Il dataset più grande è stato creato dall’organizzazione no-profit tedesca LAION e contiene oltre 12,3 milioni di tracce provenienti da YouTube.
Nella maggior parte dei casi i dataset non ospitano direttamente i file audio ma collegamenti alle opere.
Tra gli artisti presenti figurano sia superstar globali sia musicisti indipendenti.
Le major discografiche hanno avviato azioni legali contro Suno e Udio già nel giugno 2024.
Google sostiene di poter utilizzare determinati contenuti sulla base dei termini di servizio delle proprie piattaforme.
Una delle udienze più importanti del caso Suno è prevista per luglio 2026.

Oltre 20 milioni di canzoni negli AI Training Data

Dietro questa ricerca c’è il giornalista Alex Reisner, che da tempo analizza i dataset utilizzati per l’addestramento dei sistemi di intelligenza artificiale. Dopo aver esaminato raccolte di libri e pubblicazioni accademiche, questa volta il focus è stato posto sulla musica.

Il dataset più grande proviene da LAION e include 12.320.916 tracce recuperate da YouTube, per un totale equivalente a circa 91 anni di ascolto continuo.

Un secondo archivio contiene circa 9 milioni di brani, mentre due dataset più piccoli raccolgono poco più di 100.000 canzoni ciascuno. Uno di questi è basato sul Free Music Archive, progetto originariamente lanciato dall’emittente radiofonica WFMU.

I dataset non contengono sempre i file audio

Un dettaglio fondamentale è che molti di questi archivi non conservano direttamente i file musicali. Al loro interno sono presenti soprattutto collegamenti a piattaforme come YouTube o Spotify.

Attraverso strumenti automatizzati, tuttavia, tali link possono essere utilizzati per recuperare il contenuto effettivo delle opere. Secondo i critici del sistema, questo processo può aggirare elementi come pubblicità, login e altri meccanismi che normalmente contribuiscono alla remunerazione degli artisti.

Ad oggi esistono ancora poche regole chiare e relativamente poche sentenze definitive che disciplinino questo tipo di raccolta automatizzata dei contenuti.

Una ricerca gratuita e accessibile a tutti

Uno degli aspetti più interessanti del lavoro di Reisner è la totale accessibilità dello strumento.

Non è necessario alcun abbonamento: basta inserire il nome di un artista per verificare immediatamente se compaia all’interno dei dataset analizzati.

Questo trasforma una discussione che fino a poco tempo fa rimaneva molto teorica in qualcosa di estremamente tangibile.

Chi compare già nei dataset

Naturalmente i nomi più celebri non mancano.

Artisti come Taylor Swift e Bad Bunny risultano presenti nei database, un fatto che non sorprende considerando le dimensioni delle raccolte analizzate.

Molto più interessante è osservare ciò che accade nella scena indipendente e nella musica elettronica.

Il musicista berlinese Hainbach ha dichiarato di aver trovato 151 proprie composizioni all’interno di uno dei dataset. La produttrice breakcore sophia_hjkl ha invece riferito che 138 suoi brani risultano distribuiti in due diversi archivi, praticamente l’intera produzione pubblicata tra il 2017 e il 2024.

Per qualsiasi musicista o produttore, effettuare una verifica richiede meno di due minuti. Anche chi non dovesse trovare il proprio nome, però, non può considerarsi automaticamente escluso da ogni possibile utilizzo, come vedremo più avanti.

Le cause legali contro Suno e Udio per gli AI Training Data

Nel giugno 2024 le principali etichette discografiche hanno avviato una serie di azioni legali contro Suno e Udio.

La RIAA, per conto di Universal Music Group, Sony Music e Warner Music Group, ha accusato le due società di violazione massiva del copyright.

Nel corso del tempo il contenzioso si è ampliato notevolmente. Secondo la stampa specializzata, il numero complessivo delle cause intentate contro le due aziende ha ormai raggiunto almeno una dozzina di procedimenti distinti.

Oltre 61.000 registrazioni aggiunte al caso Suno

Solo poche settimane fa, Universal e Sony hanno richiesto l’inserimento di oltre 61.000 ulteriori registrazioni all’interno del procedimento contro Suno.

Nel frattempo, alcune controversie sono già state chiuse attraverso accordi extragiudiziali:

Warner Music Group ha raggiunto un accordo con Suno.
Universal Music Group ha trovato un’intesa con Udio.

Altre questioni rimangono invece ancora aperte.

La difesa basata sul fair use

Suno continua a sostenere che l’addestramento di modelli generativi su opere protette dal copyright rientri nel principio statunitense del fair use, considerandolo un utilizzo trasformativo ai sensi della sezione 107 del Copyright Act americano.

L’udienza più importante è attualmente fissata per luglio 2026 davanti alla giudice Denise Casper presso il tribunale federale del Massachusetts.

Dal canto suo, Udio ha riconosciuto nei documenti depositati nell’ambito della causa promossa da Sony di aver utilizzato materiale audio pubblicamente disponibile per l’addestramento dei modelli, contestando però che tale pratica costituisca una violazione del diritto d’autore.

Per il momento nessuna decisione definitiva è stata presa.

La risposta di Google: gli AI Training Data attraverso i termini di servizio

L’approccio di Google segue una linea differente.

Con il lancio di Lyria 3, l’azienda ha pubblicato una dichiarazione dedicata all’utilizzo responsabile dell’intelligenza artificiale musicale. Nel documento vengono citati sistemi di protezione contro l’imitazione diretta degli artisti, la tecnologia di watermarking SynthID e una serie di garanzie legate a privacy e proprietà intellettuale.

Il passaggio più controverso

L’aspetto che ha attirato maggiormente l’attenzione riguarda una specifica affermazione contenuta nella stessa comunicazione.

Google sostiene di addestrare i propri modelli utilizzando materiali che YouTube e Google hanno il diritto di impiegare sulla base dei termini di servizio, degli accordi con i partner e delle normative applicabili.

In termini pratici, ciò potrebbe includere musica caricata dagli stessi artisti o dalle etichette discografiche su YouTube, spesso senza che gli utenti abbiano mai considerato la possibilità di un futuro utilizzo per l’addestramento di sistemi di intelligenza artificiale.

Quando alcuni musicisti hanno contestato questa interpretazione in tribunale, Google ha chiesto l’archiviazione delle accuse senza confermare né smentire l’utilizzo di specifici brani, sostenendo che i termini di servizio coprirebbero già tali attività.

Non tutti i modelli Google seguono la stessa strategia

Va comunque sottolineato che il team Magenta di Google ha dichiarato che il progetto Magenta RealTime 2 è stato addestrato utilizzando audio stock e dati MIDI concessi in licenza, e non contenuti recuperati dagli utenti.

Questo suggerisce che all’interno dell’ecosistema Google esistano approcci differenti alla raccolta dei dati di addestramento.

Trasparenza arrivata solo grazie alla ricerca indipendente

Uno degli aspetti più discussi dell’intera vicenda è che queste informazioni sono emerse esclusivamente perché i dataset erano pubblicamente accessibili e ricercatori indipendenti hanno potuto analizzarli.

Le aziende che mantengono completamente segrete le proprie fonti di addestramento non compaiono infatti nell’indagine semplicemente perché nessuno ha la possibilità di esaminarle.

Lo stesso Reisner descrive quanto emerso come soltanto la punta dell’iceberg.

Molti osservatori ritengono inoltre che l’argomentazione basata sui termini di servizio, pur potenzialmente efficace sul piano giuridico, non rifletta le aspettative reali degli utenti che caricavano contenuti online anni prima dell’esplosione dell’intelligenza artificiale generativa.

Cosa possono fare oggi produttori e musicisti

La prima azione consigliata è estremamente semplice: verificare se il proprio nome artistico compare nei database pubblicati da The Atlantic.

Trovare le proprie opere all’interno degli archivi non significa automaticamente che siano state utilizzate per addestrare uno specifico modello. Allo stesso modo, non comparire nei risultati non garantisce che le proprie registrazioni non siano mai state incluse in altri dataset non pubblici.

Le questioni legali restano aperte

Dal punto di vista normativo, il quadro rimane fortemente incerto.

Finché le cause contro Suno e Udio non arriveranno a una conclusione, sarà difficile stabilire con precisione quali pratiche siano considerate legittime e quali invece costituiscano una violazione del copyright.

Per chi utilizza strumenti di AI generativa musicale, vale inoltre la pena ricordare che diverse ricerche precedenti hanno evidenziato come alcuni output possano avvicinarsi in modo significativo a opere esistenti, sia dal punto di vista melodico sia sotto il profilo stilistico.

Conclusioni sugli AI Training Data

L’indagine di The Atlantic ha il merito di trasformare una discussione teorica in qualcosa di immediatamente verificabile.

Non si parla più soltanto della possibilità che l’intelligenza artificiale venga addestrata su opere protette, ma di milioni di brani effettivamente individuabili attraverso strumenti di ricerca accessibili a chiunque.

Sul piano legale non è ancora cambiato nulla: le controversie proseguono e il procedimento più atteso, quello relativo a Suno, non entrerà nel vivo prima di luglio 2026.

Per molti musicisti, però, il semplice fatto di digitare il proprio nome e vedere apparire decine o centinaia di brani all’interno di questi archivi rende la questione improvvisamente molto concreta. Ed è probabilmente questo il risultato più significativo ottenuto finora dall’inchiesta.

Maggiori informazioni sugli AI Training Data

Per approfondire l’argomento è possibile consultare l’inchiesta originale di The Atlantic, gli approfondimenti di CDM dedicati ai dataset musicali e la documentazione relativa alle controversie che coinvolgono Suno, Udio e le principali etichette discografiche.

About
Latest Posts

Francesco Di Mauro

Classe ’96, chitarrista professionista formato al Conservatorio “Giuseppe Martucci” di Salerno in chitarra pop rock.
Lavora tra studio e live creando anche contenuti per Passione Strumenti.
Influenzato da Bon Jovi, Guns N’ Roses e artisti come Stevie Ray Vaughan e John Mayer, è sempre alla ricerca del suono ideale.

Latest posts by Francesco Di Mauro (see all)

Waves StudioVerse Mix Unlock porta la stem separation avanzata dentro StudioVerse - 24. Giugno 2026
AI Training Data: The Atlantic svela quali musiche sono finite nei dataset di Suno, Udio e Google - 24. Giugno 2026
Harley Benton BLOCK Series: il nuovo rig modulare per bassisti - 23. Giugno 2026

Correlati

HOT
or not?

Come valuti questo articolo?

Valutazione: Tuo: | ø:

AI Training Data: The Atlantic svela quali musiche sono finite nei dataset di Suno, Udio e Google

Lascia un commento Annulla risposta