
Tutti i contenuti di iLive sono revisionati o verificati da un punto di vista medico per garantire la massima precisione possibile.
Abbiamo linee guida rigorose in materia di sourcing e colleghiamo solo a siti di media affidabili, istituti di ricerca accademici e, ove possibile, studi rivisti dal punto di vista medico. Nota che i numeri tra parentesi ([1], [2], ecc.) Sono link cliccabili per questi studi.
Se ritieni che uno qualsiasi dei nostri contenuti sia impreciso, scaduto o comunque discutibile, selezionalo e premi Ctrl + Invio.
La voce come analisi: segnali precoci di cancro e lesioni benigne
Ultima recensione: 18.08.2025

I ricercatori dell'Oregon Health & Science University hanno analizzato le registrazioni vocali del nuovo dataset Bridge2AI-Voice, disponibile al pubblico, e hanno scoperto una semplice caratteristica acustica in grado di rivelare patologie delle corde vocali. Stiamo parlando del rapporto armoniche/rumore (HNR), ovvero il rapporto tra "toni musicali" e rumore. Il suo livello e la sua variabilità hanno distinto le voci delle persone con cancro alla laringe e lesioni benigne da quelle sane e da altri disturbi vocali. L'effetto è stato particolarmente evidente negli uomini cisgender; la significatività statistica non è stata sufficiente per le donne: gli autori attribuiscono la causa alle dimensioni ridotte del campione e chiedono un ampliamento dei dati. Il lavoro è stato pubblicato come breve rapporto su Frontiers in Digital Health.
Contesto dello studio
- Perché cercare "marcatori vocali"? La raucedine è un disturbo comune. Le cause sono varie: dal raffreddore al reflusso, fino a noduli/polipi e cancro alla laringe. Attualmente, il percorso diagnostico prevede una visita otorinolaringoiatrica e un'endoscopia (una telecamera nel naso/gola). È un esame accurato, ma non sempre disponibile in tempi rapidi e non è adatto all'automonitoraggio domiciliare. È necessario uno screening preventivo: un modo semplice per capire chi dovrebbe consultare prima un medico.
- Cos'è un biomarcatore vocale? Il parlato è un segnale che può essere facilmente registrato su un telefono. Il suo "pattern" può essere utilizzato per valutare la vibrazione delle corde vocali. Le lesioni rendono le vibrazioni irregolari: più "rumore" e meno "musica".
- Perché i nuovi set di dati sono importanti. In precedenza, tali lavori si basavano su piccoli campioni "fatti in casa" e i modelli erano fragili. Bridge2AI-Voice è un ampio set di registrazioni audio, multicentrico e raccolto eticamente, collegato alle diagnosi. È stato creato come "banco di prova comune" per addestrare e testare algoritmi su dati di grandi dimensioni ed eterogenei.
- Quali sono le principali difficoltà?
- La voce cambia a causa del microfono, del rumore della stanza, del freddo, del fumo, della lingua, del sesso e dell'età.
- Tradizionalmente i dati femminili sono meno numerosi e la voce femminile ha una frequenza più alta: le metriche si comportano in modo diverso.
- Nessun test "casalingo" può sostituire una visita o formulare una diagnosi, al massimo può aiutare a decidere: "è necessario consultare urgentemente un otorinolaringoiatra?"
- Perché la clinica e i pazienti ne hanno bisogno? Se i pazienti ad alto rischio di linfonodi/tumori possono essere selezionati per un appuntamento prioritario tramite un appuntamento breve, ciò velocizzerà la diagnosi, ridurrà i trasferimenti non necessari e fornirà uno strumento di automonitoraggio tra una visita e l'altra (dopo l'intervento chirurgico, durante la terapia).
- Dove questo dovrebbe portare: ad applicazioni/moduli di telemedicina convalidati che:
- scrivere un discorso secondo lo standard (frase + “aaa” prolungato),
- calcolare le caratteristiche di base (HNR, jitter, shimmer, F0),
- emettere una raccomandazione di contattare uno specialista se il profilo è allarmante,
- mantenere la dinamica dopo il trattamento.
L'idea è semplice: "passare il telefono all'orecchio di un otorinolaringoiatra", non per fare una diagnosi, ma per non perdere di vista chi ha bisogno di un aiuto rapido e diretto.
Cosa hanno fatto esattamente?
- Abbiamo preso in esame la prima versione del dataset multicentrico Bridge2AI-Voice, raccolto in modo etico, un progetto di punta del NIH in cui le registrazioni vocali sono collegate a informazioni cliniche (diagnosi, questionari, ecc.).
- Sono stati formati due campioni analitici:
- "tumore della laringe / linfonodi benigni / sani";
- "cancro o noduli benigni" rispetto a disfonia spasmodica e paralisi delle corde vocali (altre cause comuni di raucedine).
- Le caratteristiche vocali di base sono state identificate da frasi standardizzate: tono fondamentale (F0), jitter, shimmer e HNR, e i gruppi sono stati confrontati utilizzando statistiche non parametriche. Risultato: le differenze più stabili si sono verificate in HNR e F0, con HNR e la sua variabilità che meglio distinguevano le lesioni benigne sia dalla norma che dal cancro laringeo. Questi segnali erano più distinti negli uomini.
Perché è importante?
- Screening precoce senza sonda. Attualmente, il percorso diagnostico spesso prevede la nasoendoscopia e, in caso di sospetto, la biopsia. Se semplici caratteristiche acustiche combinate con l'intelligenza artificiale potessero dare priorità a coloro che necessitano di endoscopia, i pazienti raggiungerebbero prima un otorinolaringoiatra e si ridurrebbero i ricoveri non necessari. Questo è un complemento, non un sostituto del medico.
- Big data per la voce. Bridge2AI-Voice è un progetto raro in cui la voce viene raccolta utilizzando protocolli uniformi e collegata alle diagnosi; i dati sono disponibili ai ricercatori tramite PhysioNet / Health Data Nexus. Questo accelera lo sviluppo di biomarcatori vocali affidabili, anziché di "app miracolose" su piccoli campioni.
Che cosa è l'HNR?
Quando parliamo, le corde vocali vibrano e creano armonici. Ma la vibrazione non è mai perfetta: c'è sempre rumore nel segnale. L'HNR è semplicemente la quantità di "musica" presente nella voce rispetto al "sibilo". Quando le corde vocali sono danneggiate, la vibrazione diventa meno uniforme: c'è più rumore, l'HNR diminuisce e i suoi salti (variabilità) aumentano. Questo è lo schema che gli autori hanno individuato.
Importanti avvertenze
- Si tratta di un'analisi pilota ed esplorativa: senza validazione clinica, con restrizioni sul campione di donne, quindi i suoi effetti non sono stati significativi. Sono necessari dati più ampi e diversificati e la "roasting" dei modelli in diverse cliniche e in diverse lingue.
- La voce è un elemento "multivalore": è influenzata da raffreddore, fumo, reflusso, microfono, rumore nella stanza. Qualsiasi "test domiciliare" dovrebbe essere in grado di tenere conto del contesto e fungere comunque da filtro per l'invio a un otorinolaringoiatra, e non da diagnosi immediata.
Cosa succederà adesso?
- Ampliare il set di dati (inclusi quelli per donne e fasce d'età), standardizzare le attività e l'acustica (leggere una frase, un "aaa" prolungato, ecc.), provare modelli multimodali (voce + questionario sui sintomi/fattori di rischio).
- Collegare i segnali acustici con i risultati degli esami (endoscopia, stroboscopia) e la dinamica dopo il trattamento, in modo che il profilo HNR possa essere utilizzato anche per il monitoraggio.
- Continua la “scienza aperta”: Bridge2AI-Voice sta già pubblicando versioni del set di dati e degli strumenti: questa è un'opportunità per raggiungere rapidamente veri piloti nelle cliniche.
Conclusione
È possibile "sentire" i problemi alle corde vocali dalla voce e, forse, indirizzare la persona allo specialista giusto prima possibile. Per ora, si tratta di un indizio interessante (HNR e la sua variabilità), ma grazie ai big data aperti, i biomarcatori vocali hanno finalmente la possibilità di diventare uno strumento di screening affidabile.
Fonte: Jenkins P. et al. La voce come biomarcatore: analisi esplorativa per lesioni benigne e maligne delle corde vocali. Frontiers in Digital Health, 2025 (accettata per la pubblicazione). Dati: Bridge2AI-Voice (NIH/PhysioNet).