A nche questo inverno, come ogni inverno dal 1951, l’Italia si ferma per quello che è al contempo l’evento più divisivo e più unificante dell’anno. Il Festival di Sanremo è una di quelle ricorrenze impossibili da ignorare, e infatti puntualmente il Paese finisce per spaccarsi in due frange asimmetriche: da un lato quelli (tanti) che seguiranno più o meno fedelmente la rassegna, sceglieranno le canzoni preferite e la mattina si agganceranno al treno di discussioni Sanremo-centriche; dall’altro quelli (meno) che tenteranno di isolarsi tappandosi le orecchie, nella speranza che il supplizio passi in fretta. Che tu appartenga a una frangia o all’altra, c’è buona probabilità che le canzoni di Sanremo ti entreranno in testa lo stesso. E per quanto tu abbia provato a evitare qualsiasi cosa abbia lontanamente a che fare con l’Ariston, è possibile che fra qualche settimana, nel silenzio della tua testa, scoprirai che quei ritornelli hanno aggirato le difese e hanno colonizzato anche il tuo paesaggio sonoro. Come vedremo, se questo succede non è perché i brani di Sanremo siano particolarmente belli, ma perché il nostro cervello fa una fatica tremenda a resistere ai ritornelli, e alle ripetizioni musicali in generale.
Repetita sonant
Partiamo dal 1995, quando la psicologa Diane Deutsch fa una scoperta che da sola è in grado di cambiare la neuropsicologia della musica. Come molte scoperte spartiacque, anche questa avviene per caso. Deutsch sta preparando un CD divulgativo, ha già registrato tutte le sue parti ma vuole assicurarsi che le tracce non abbiano difetti di registrazione. Comincia così a riprodurre spezzoni del suo intervento a ripetizione. A un certo punto, mentre ascolta un particolare segmento, si rende conto di una cosa: parole che lei aveva letto senza alcuna intonazione consapevole, ora presentano una certa musicalità, sembrano quasi cantate. Quando prova a riascoltare per intero il discorso la sua voce appare neutra, ma quando arriva quel pezzo di frase d’un tratto la voce si impenna in una melodia cantata. Quella che Deutsch sta sperimentando è una forma piuttosto comune di illusione sonora, oggi nota come speech-to-music illusion (se volete sperimentarla voi stessi, è possibile ascoltare il file originale).
Nel parlato c’è sempre una componente melodica e ritmica (prosodia) che spesso non notiamo perché concentrati sul senso della frase. Con la ripetizione l’attenzione si sposta: la componente semantica passa in secondo piano e la prosodia emerge.
È una spiegazione convincente, ma non sufficiente. Se infatti bastasse una ripetizione decontestualizzata per trasformare una frase parlata in una frase cantata, allora sperimenteremmo questa illusione molto più di frequente. Il punto è che la musicalità degli elementi ripetuti è anche legata ad aspetti cognitivi e culturali.
Una questione di intenzionalità
La musicologa cognitiva Elizabeth Hellmuth Margulis ha dedicato la propria vita a studiare la capacità che la musica ha di monopolizzare la nostra attenzione. Nel suo ultimo saggio, Transported, in uscita a maggio 2026, analizza come le canzoni siano in grado di farci rivivere momenti passati e immaginare scenari futuri, innescando una specie di sogno a occhi aperti. Ma prima di focalizzarsi su questo fronte di ricerca ha passato anni ad analizzare i cosiddetti earworm, i tormentoni virali di cui parlavo a inizio pezzo.
Nel 2013, volendo dimostrare l’importanza della ripetizione nella fruizione musicale, ha ideato un esperimento talmente subdolo da assomigliare a un tranello. Come prima cosa ha selezionato una serie di estratti di musica contemporanea poco accessibili a un ascoltatore non specializzato, tratti dai brani di Luciano Berio ed Elliott Carter: parliamo di musica piuttosto complessa, praticamente priva di elementi ripetitivi, che un fruitore medio farebbe fatica a suddividere in parti distinte. In una seconda fase, ha modificato digitalmente questi brani introducendo ripetizioni non previste nelle composizioni originali. Questa modifica è stata eseguita in maniera sostanzialmente casuale, senza seguire alcun criterio compositivo. In teoria, dunque, i brani modificati sarebbero dovuti risultare più sghembi e rozzi rispetto a quelli originali, e invece, una volta che le due versioni sono state sottoposte a una schiera di ascoltatori non specializzati, i brani modificati venivano giudicati più piacevoli e interessanti. Non solo, quando veniva chiesto quale delle due versioni fosse stata realizzata da un essere umano, quasi tutti sceglievano quella alterata.
Da questi esperimenti Margulis dedusse che la presenza di ripetizioni viene percepita dal cervello umano come un segno di intenzionalità: se ci rendiamo conto che degli elementi si ripresentano in forma simile nel corso del brano, una parte di noi si convince che qualcuno abbia scelto di proporre quella sequenza di suoni, e questo ci porta a spostare il fuoco dell’attenzione: quello che prima poteva essere un insieme disordinato di suoni, d’un tratto lo consideriamo informazione.
Che l’ascolto ripetuto di una canzone finisca per aumentarne il gradimento è qualcosa di cui tutti abbiamo esperienza. Un disco che inizialmente non ci diceva più di tanto dopo qualche ascolto comincia a suscitare emozioni più intense, a volte addirittura a commuoverci, finché ci ritroviamo ad ascoltarlo a ripetizione. Questo fenomeno è noto come “effetto di mera esposizione”: la familiarità rende più facile anticipare e riconoscere un brano, e questo spesso aumenta il piacere; almeno finché non subentra la saturazione. Ma è una linea di ricerca che rischia di portarci altrove: qui ci interessa capire come mai una canzone ascoltata per caso, o addirittura in modo inconsapevole, finisca per piantarci le tende in testa. Per farlo occorre analizzare in che modo il nostro cervello si rapporta al mondo esterno.
Un dispositivo per risolvere incertezze
Dagli anni Ottanta a oggi diverse linee di ricerca neurologica e neurocognitiva sembrano suggerire che la nostra percezione della realtà esterna non sia “in presa diretta”, ma si affidi piuttosto a modelli mentali in continuo aggiornamento. Per dirla in parole più semplici: invece di acquisire in continuazione informazioni dall’esterno, il nostro cervello tende a sviluppare una simulazione interna della realtà che ci circonda, che viene aggiornata solo quando gli input esterni si dimostrano diversi da quelli previsti. Secondo la teoria dell’inferenza attiva il nostro cervello funzionerebbe dunque come una macchina predittiva, e il nostro rapporto con la realtà sarebbe costantemente sbilanciato verso il futuro. Non è difficile intuire perché l’evoluzione abbia premiato questa soluzione: il cervello è un organo estremamente energivoro, e la possibilità di affidarsi a un modello simulato, e non dover processare continuamente ogni input esterno, ha consentito ai nostri antenati di conservare energie preziose, così da poterle riorientare su compiti in cui il margine d’errore può costare caro, come ad esempio monitorare un pericolo, o decidere in una frazione di secondo se sia meglio scappare o attaccare.
Alcuni studi di psicologia della musica hanno mostrato come i brani che tendiamo ad apprezzare di più siano quelli che riescono contemporaneamente a confermare e tradire le nostre aspettative.
In uno studio del 2025 intitolato “Predictive processes shape individual musical preferences”, gli psicologi cognitivi catalani Ernest Mas-Herrero e Josep Marco-Pallarés hanno mostrato come i brani che tendiamo ad apprezzare di più sono quelli che riescono contemporaneamente a confermare e tradire le nostre aspettative. Dico “tendono” perché naturalmente le risposte alle varie canzoni e ai diversi generi sono soggettive. I gusti sono gusti, ci mancherebbe, ma nella maggior parte dei casi il discorso regge: se un brano presenta troppi elementi spiazzanti finirà per risultare indigesto all’ascoltatore medio, se al contrario ripropone stilemi noti e logori, finirà per annoiarlo.
I brani che vengono selezionati per Sanremo di solito rientrano nell’intervallo tra questi due estremi, e non stupisce che molte canzoni mostrino espedienti che giocano su questo equilibrio: dalle variazioni sincopate ai cambi d’intensità, per non parlare dell’usatissimo salto di tono nell’ultimo ritornello, praticamente un cliché del festival (basta riascoltare Amici come prima, Fiumi di parole e L’essenziale e per rendersi conto che, per quanto questi brani siano diversi, giocano tutti sulla classica modulazione tonale verso l’alto).
Un po’ come succede con l’apprendimento, il nostro cervello trae gratificazione quando riesce a risolvere un’incertezza. In questo senso, i ritornelli più orecchiabili e infettivi sono come dei cubi di Rubik, tutto sommato semplici, ma con dettagli spiazzanti che non possiamo fare a meno di rimettere a posto. Insomma, quando fatichiamo a levarci di testa un particolare ritornello, è perché il nostro cervello lo considera un trastullo perfetto per placare il suo bisogno di ridurre l’incertezza. A prescindere che quel ritornello ci piaccia effettivamente o meno.
Formule propiziatorie e ganci mnemonici
La ripetizione musicale è uno dei pochi elementi sostanzialmente trasversali a ogni cultura. Nel suo “The Biology and Evolution of Music” il biologo cognitivo W. Tecumseh Fitch include la ripetibilità tra le proprietà fondamentali che rendono la musica una forma comunicativa autonoma dal linguaggio. Certo, in alcune culture ha un’importanza diversa rispetto ad altre. In quella italiana, ad esempio, il ritornello è un perno strutturale della canzone moderna almeno da fine Ottocento, quando la canzone popolare e quella da salotto cominciano a fissare forme sempre più standardizzate basate sul ritorno di un motivo.
Se fatichiamo a levarci di testa un particolare ritornello, è perché il nostro cervello lo considera un trastullo perfetto per placare il suo bisogno di risolvere incertezza. A prescindere che quel ritornello ci piaccia effettivamente o meno.
Già nel 1910, quasi un secolo prima che Elizabeth Margulis pubblicasse le sue ricerche, il musicologo francese Jules Combarieu aveva suggerito che il ritornello fosse prima di tutto un gancio cognitivo, un elemento ricorrente che aveva come scopo quello di catalizzare l’attenzione di un uditorio. In questo senso, il moderno ritornello sarebbe una rielaborazione delle formule rituali degli antichi canti propiziatori. Prendiamo ad esempio le cerimonie magiche delle tribù Pawnee in Nord America: in questi canti i due elementi più riconoscibili sono esclamazioni prive di un vero significato verbale. Il primo, “Ho-o-o”, era una sorta di preludio al canto; mentre il secondo, “I’hare” serviva a richiamare l’attenzione dei presenti sullo spirito a cui il canto era rivolto. Una costruzione simile la ritroviamo anche in culture molto diverse, ad esempio negli imenei greci. L’idea di Combarieu è che queste costruzioni, una volta spogliate del significato religioso, abbiano mantenuto la loro funzione di appigli sonori, aiutando il fruitore a orientarsi nell’ascolto.
Nella canzone popolare moderna il ritornello è l’elemento più riconoscibile, quello a cui è più facile unirsi (cantando o battendo le mani), e soprattutto, quello che più spesso risulta gratificante. In un certo senso è una sorta di nord della bussola: qualunque direzione prenda la canzone che stiamo ascoltando, ci aspettiamo che prima o poi ritornerà su quel blocco sonoro; e per certi versi non vediamo l’ora che ciò avvenga. Questo gioco di attesa e gratificazione è una dinamica difficilmente aggirabile, e oggi più che mai ha un ruolo centrale nel decretare il successo di una canzone.
Tutta colpa dei Beatles (o quasi)
Oggi tendiamo a dare per scontato che una canzone debba avere una strofa e un ritornello, che prima di concludersi ci sarà un bridge (qualcuno la chiamerebbe variazione), e che questi elementi saranno presentati grossomodo in quest’ordine. In effetti, è questo lo schema che ha dominato la musica popolare degli ultimi decenni, e Sanremo non fa eccezione. Basta dare un’occhiata ai brani vincitori degli ultimi vent’anni per rendersi conto che nella quasi totalità dei casi sono caratterizzati da una struttura strofa-ritornello-bridge, con strofe lunghe che accumulano tensione, e un ritornello riconoscibile che la fa esplodere.
In realtà, però, la prevalenza di questo schema, noto come Verse-Refrain (VR), è un fenomeno recente. Prima degli anni Sessanta, soprattutto in ambito anglosassone, era piuttosto comune trovare canzoni che cominciavano con il ritornello e a volte nemmeno presentavano una vera strofa. Pensiamo a brani jazz, come I Got Rhythm di George Gershwin, o a ballate anni Cinquanta, come Everyday di Buddy Holly, in cui la struttura si esaurisce con tre ritornelli intervallati da un bridge nell’arco di 32 battute. Questo schema, noto come Chorus-Bridge (CB), oggi sembra aver abdicato al predominio di quello VR; ed è probabile che la colpa, almeno in parte, sia dei Beatles.
Molti dei singoli del primo periodo (A Hard Day’s Night, I Want To Hold Your Hand, Love Me Do) presentano una chiara struttura CB. Prendiamo il primissimo singolo, Love Me Do (1962): la canzone comincia con il ritornello (“Love, love me do…”), che ripete due volte prima di lasciare spazio alla variazione (“Someone to love…”), per poi atterrare nuovamente sul ritornello. Ancora nel 1964, la maggior parte delle canzoni del quartetto di Liverpool seguiva questo schema. A un certo punto, però, a partire dal 1965, Lennon e McCartney cominciano a spostare il baricentro compositivo verso lo schema VR (Help!, Paperback Writer, Penny Lane) e a esplorare strutture più ibride (A Day In The Life, Happiness Is A Warm Gun). Non è un cambiamento da poco. Abbiamo visto come la musica popolare giochi da sempre su dinamiche di attesa e gratificazione, ecco: in queste strutture il ritornello gioca un ruolo significativamente diverso.
Lo schema strofa-ritornello sembra capace di sopravvivere a mode e rivoluzioni come un macigno piantato in un torrente. Il motivo è semplice: è la dinamica che meglio garantisce di scodellare tormentoni infettivi, e dunque quella più funzionale a batter cassa.
Negli ultimi anni della loro carriera i Beatles ripresero in parte il modello CB, ma nel frattempo lo schema VR aveva conquistato il mondo. Oggi, cinquant’anni dopo, lo schema strofa-ritornello sembra capace di sopravvivere a mode e rivoluzioni come un macigno piantato in un torrente. Il motivo è semplice: promettere la torta di un ritornello memorabile dopo una strofa di bistecca e spinaci è la dinamica che meglio garantisce di scodellare tormentoni infettivi. E dunque quella più funzionale a batter cassa.
Tu chiamala se vuoi piattaformizzazione
Chiunque abbia seguito le ultime edizioni di Sanremo (ma anche chi avesse provato a ignorarle) si sarà reso conto di una cosa: le canzoni si stanno accorciando. In un illuminante e approfondito studio, pubblicato lo scorso dicembre, Dino Mignogna ha analizzato 934 brani in gara al Festival tra il 1983 e il 2025, e ha notato che negli ultimi trent’anni la durata media delle canzoni è diminuita di 45 secondi, stabilizzandosi attorno ai 3 minuti e 25 secondi. La scure si è abbattuta principalmente sulle introduzioni, che sono state dimezzate (da 15 a 8 secondi in media), quando non proprio eliminate. La ragione è facilmente intuibile: una canzone con un ritornello che arriva presto (possibilmente entro i primi 40 secondi) ha più chance di funzionare sulle piattaforme streaming come Spotify, che conta i singoli ascolti a partire da 30 secondi di riproduzione, e sulle piattaforme social come TikTok, il cui algoritmo tende a premiare frammenti sonori ancora più brevi.
Naturalmente parliamo di una tendenza che va oltre Sanremo: ricerche recenti mostrano come TikTok stia cambiando le dinamiche compositive nel panorama pop. Non è un caso che sempre più spesso a diventare virali non siano vere e proprie canzoni, ma spezzoni strumentali specificamente ideati per diventare sottofondi per i reel degli utenti.
A Sanremo come altrove, le canzoni si stanno facendo sempre più corte e le scelte compositive sempre più standardizzate; allo stesso tempo, i nostri ascolti tendono a chiudersi in percorsi sempre più personalizzati.
Poiché Sanremo è da sempre una cartina al tornasole affidabile delle tendenze musicali in atto, è probabile che anche quest’anno avremo prova di come un mercato condizionato e un contesto di ascolto frammentato finiscano per incidere sulle dinamiche compositive. Ma non è scontato. Perché se è vero che le canzoni si stanno standardizzando e semplificando, è anche vero, come abbiamo visto, che il nostro cervello di fronte a un brano nuovo vuole essere almeno in parte sfidato. Del resto, negli anni Sanremo ha dimostrato di saper regalare anche sorprese inattese e, cosa non banale, di saper riunire su uno stesso palco artisti e generi che intercettano uditori anche lontani tra loro.
Per questo non mi stupirei più di tanto se di qui a qualche settimana ti ritroverai a canticchiare un ritornello che hai giurato a tutti di detestare. L’abbiamo detto: un tormentone non ci conquista perché è bello, ma perché il nostro sistema predittivo, ancora una volta, ha trovato un modo semplice e poco dispendioso per sentirsi meno incerto. Non è necessariamente un male. Potrebbe essere l’occasione per uscire, anche solo per un po’, dalla bolla degli ascolti su misura.