Legge di Zipf: differenze tra le versioni
| Riga 425: | Riga 425: | ||
'''Assume una relazione matematica perfetta ma molti fenomeni reali hanno deviazioni''': | |||
{| class="wikitable" | {| class="wikitable" | ||
Versione delle 12:17, 12 giu 2025

ATTENZIONE: Riteniamo la seguente voce un abbozzo (stub), pertanto è incompleta e va ampliata.
Questo avviso verrà rimosso da questa pagina solo quando questa voce sarà ritenuta completata.
La legge di Zipf è una legge empirica che descrive come varia la frequenza di un evento all’interno di un insieme, in base alla sua posizione i (detta rango) in una classifica ordinata in modo decrescente rispetto alla frequenza di ciascun evento.
La relazione è espressa dalla formula:
dove:
- i rappresenta il rango, ossia la posizione occupata dall'evento in base alla sua frequenza.
- è l’evento che si trova in posizione i (cioè il i-esimo evento più frequente).
- indica la frequenza con cui si presenta l'evento Pi.
- c è una costante di normalizzazione, che corrisponde alla frequenza del primo evento in classifica, ovvero .
Questa legge venne formulata dal linguista George Kingsley Zipf, che la illustrò nel 1949 nel suo libro Human Behaviour and the Principle of Least Effort (Comportamento umano e principio del minimo sforzo).
La relazione con la statistica
Mentre nella statistica classica, la probabilità di un evento A è data dal rapporto tra il numero di casi favorevoli e il numero totale di casi possibili:
dove:
- n(A) = numero di modi in cui può accadere l'evento A
- N = numero totale di eventi possibili
Esempio: lanciare un dado a 6 facce → la probabilità di fare 4 è
La legge di Zipf può essere letta anch’essa in chiave probabilistica, ma per eventi che non hanno tutti la stessa probabilità (come accade nel dado). Anzi, gli eventi hanno probabilità decrescenti rispetto al loro rango.
La formula:
può essere normalizzata a una vera e propria probabilità (cioè tra 0 e 1) dividendo per la somma totale di tutte le frequenze:
dove:
- è una costante di normalizzazione detta armonica generalizzata, che rappresenta la somma di tutte le frequenze (cioè il numero totale di "eventi possibili").
E quindi:
- Il numeratore è la "frequenza relativa" o la probabilità di un evento favorevole (evento al rango i)
- Il denominatore è il numero totale di eventi possibili (normalizzato in base alle frequenze decrescenti)
Perchè funziona
La legge di Zipf funziona perché riflette schemi naturali e universali che emergono in molti sistemi complessi e naturali, e la sua validità è stata osservata e confermata da numerosi studi statistici su dati reali. Ecco una spiegazione basata su ricerche e modelli statistici:
- Distribuzioni di tipo potenza (power law): La legge di Zipf è una forma specifica di distribuzione a potenza, molto comune in natura e nei fenomeni sociali. Queste distribuzioni emergono quando ci sono pochi elementi molto frequenti e molti elementi poco frequenti, senza una scala caratteristica. Studi statistici hanno mostrato che molte variabili nel mondo reale (parole in un testo, città per popolazione, redditi, dimensioni aziendali) seguono queste distribuzioni.
- Meccanismi di auto-organizzazione: In sistemi complessi come il linguaggio, i comportamenti sociali o le reti, le dinamiche interne portano all’auto-organizzazione di dati secondo leggi di potenza. Ad esempio, nell’uso delle parole, alcune parole (come articoli, preposizioni) sono usate molto spesso perché sono fondamentali, mentre altre sono rare, e questa differenza si stabilizza naturalmente attraverso l’uso e la comunicazione.
- Principio del minimo sforzo (Least Effort): Zipf stesso propose che la frequenza delle parole deriva da un equilibrio tra lo sforzo del parlante (che tende a usare poche parole comuni) e quello dell’ascoltatore (che ha bisogno di un vocabolario abbastanza ricco per capire). Questo bilanciamento produce la distribuzione osservata.
- Modelli matematici e simulazioni: Molti modelli statistici, come il modello di crescita proporzionale (dove la probabilità che un elemento cresca è proporzionale alla sua attuale frequenza), spiegano come la legge di Zipf emerga naturalmente. Questi modelli sono stati testati con dati reali e simulazioni che confermano la presenza della legge.
Applicazioni
La legge di Zipf ha numerose applicazioni in diversi campi, dalla linguistica all'economia, dalla scienza dei dati alla fisica. Ecco alcune delle principali applicazioni:
Linguistica e scienze del testo
E' Il settore originario in cui George Zipf notò questa legge. Se si contano le parole in qualsiasi testo scritto, si osserva che poche parole molto comuni (come "il", "di", "e") compaiono moltissime volte, mentre la maggior parte delle parole appare raramente.
Distribuzione delle parole in un linguaggio
- In un testo, la parola più frequente (es. "il", "la") appare circa il doppio della seconda più frequente, il triplo della terza, ecc.
- Questo aiuta nella compressione dei dati e nel modellamento del linguaggio naturale (NLP) per algoritmi di machine learning.
Esempio concreto:
Nel testo della Divina Commedia, parole come "e", "che", "di" compariranno migliaia di volte, mentre parole come "Inferno", "Lucifero", "Malebolge" appariranno pochissimo.
Altre possibili applicazioni della legge è nell' attribuzione di opere di paternità incerta, Confrontando la distribuzione delle frequenze di parole di un testo anonimo o controverso con quelle di testi noti, si può stimare se provengano dallo stesso autore.
Esempi celebri:
- Attribuzione di alcune lettere medievali a Seneca.
- Analisi del dramma Edward III, attribuito (anche) a Shakespeare.
Classificazione e Ricerca di Informazione (Information Retrieval)
Motori di ricerca come Google usano principi simili a Zipf per stimare la rilevanza delle parole nei documenti (es. TF-IDF).
Scienze sociali ed economia
Distribuzione della ricchezza
- La legge di Zipf è correlata alla legge di Pareto (80/20), dove poche persone possiedono la maggior parte della ricchezza.
- Applicata alle grandi città: la città più popolosa di un paese è circa il doppio della seconda, il triplo della terza, ecc.
Popularità di prodotti e servizi
In economia, la distribuzione delle vendite di libri, film o canzoni segue spesso una legge di Zipf (pochi bestseller dominano il mercato).
Informatica, reti e web
Web e Accessi alle Pagine
- La frequenza con cui le pagine web sono visitate segue una distribuzione di Zipf (poche pagine come Google, Facebook, YouTube dominano il traffico).
- Nei motori di ricerca: poche query (es. "meteo", "facebook") sono molto frequenti.
- Utile per l'ottimizzazione della cache nei server.
Distribuzione dei gradi nelle reti (Power Law Networks)
In reti sociali (Facebook, Twitter), pochi nodi (influencer) hanno moltissimi collegamenti, mentre la maggioranza ne ha pochi.
Scienze naturali
In un ecosistema, alcune specie dominano numericamente, mentre molte altre sono rare. Per esempio in una foresta tropicale poche specie di alberi costituiscono il 70% degli esemplari.
Terremoti (Legge di Gutenberg-Richter)
La distribuzione delle magnitudo dei terremoti segue una legge di potenza simile a Zipf.
Fisica e Sistemi Complessi
Dinamica dei Sistemi Caotici
In fisica statistica, la legge di Zipf appare nello studio di sistemi complessi e fenomeni critici.
Astrofisica (Distribuzione delle galassie)
Le strutture cosmiche mostrano distribuzioni di densità che ricordano leggi di potenza come Zipf.
Editoria scientifica e citazioni
Anche nelle pubblicazioni scientifiche, pochi articoli vengono citati moltissimo, mentre la maggior parte riceve pochissime citazioni. Per esempio un articolo su Nature può avere 10.000 citazioni, mentre molti articoli accademici restano con meno di 10 citazioni. Questa legge si rileva quindi utile per valutare l' impatto della ricerca e analizzare la conoscenza scientifica nel tempo
Diritto, giustizia e criminologia
Nei tribunali, poche categorie di reati sono molto frequenti, mentre altre accadono raramente. Reati come furto, truffa e violenza domestica sono molto ricorrenti, mentre altri come spionaggio industriale o alto tradimento sono rarissimi. La legge di Zpif diventa utile quindi quando si tratta di allocare le risorse della giustizia
Limiti e Critiche
La legge di Zipf è un modello potente e versatile, ma non è universale e presenta diversi limiti e critiche. Ecco i principali problemi e le contestazioni sollevate dalla comunità scientifica:
È una legge empirica, non teorica
La legge di Zipf non nasce da un principio matematico dedotto a priori, ma è il risultato di osservazioni ripetute su dati reali.
Questo significa che:
- Funziona bene in molti casi, ma non è garantito che valga sempre.
- È difficile giustificarla rigorosamente in teoria dei numeri o della probabilità pura.
Applicabilità limitata a determinati contesti
Non tutti i dataset seguono Zipf:
- Funziona bene in linguistica, scienze sociali e alcune reti complesse, ma fallisce in contesti con distribuzioni uniformi o Gaussiane (es. altezze delle persone, errori di misurazione).
- In alcuni casi, la coda della distribuzione è più lunga o più corta del previsto.
Dipendenza dal dominio:
Zipf si applica bene a fenomeni con "effetto ricco-diventa-più-ricco" (preferenza cumulativa), ma non spiega bene sistemi con meccanismi di regolazione esterna (es. economia pianificata).
Non tutti i fenomeni linguistici o naturali la seguono
Anche se molto frequente, ci sono testi o sistemi in cui la distribuzione Zipfiana non si verifica o si discosta molto.
Esempi:
- Testi molto brevi (dove le frequenze di parole non si stabilizzano)
- Linguaggi artificiali, testi codificati o cifrati
- Sistemi sociali o naturali con strutture non competitive o non cumulative
Problemi statistici e di misurazione
La legge di Zipf funziona meglio su grandi quantità di dati.
Su campioni piccoli:
- I ranghi possono cambiare drasticamente
- Le frequenze relative risultano distorte
- L’andamento Zipfiano non emerge chiaramente
Ad esempio in un testo di 300 parole difficilmente la distribuzione apparirà chiara
Sensibilità al campionamento:
Se il dataset è incompleto o distorto (es. solo i libri più venduti, non tutti), la stima di Zipf può essere fuorviante.
Problema delle code lunghe
Zipf prevede che vi siano molti eventi rari (low-frequency events), ma:
- La gestione statistica e l’analisi di questi eventi è complicata.
- Nelle "code lunghe" di una distribuzione Zipfiana (la parte bassa della classifica), la precisione dei dati è scarsa e soggetta a oscillazioni casuali.
Questo crea problemi in applicazioni pratiche:
- In linguistica computazionale
- In bibliometria (articoli citati pochissimo)
- In criminologia (reati rari)
Il problema delle code lunghe lo si può verificare quando si analizzano le distribuzione delle città. Se si ordinai le città di un paese dalla più popolosa alla meno popolosa, la dimensione (popolazione) della città al rango i dovrebbe essere inversa rispetto al suo rango.
Questo fenomeno fu osservato già nel 1913 da Felix Auerbach per Germania, Francia, Italia, Regno Unito e Stati Uniti, tuttavia se si analizzano complessivamente i dati dei vari paesi si nota che funziona per circa la metà dei casi:
1. Italia (2023)
| Rango | Città | Popolazione | Pop. teorica (Zipf) | Realtà vs Zipf |
|---|---|---|---|---|
| 1 | Roma | ~2,8M | 2,8M (P₁) | ✅ Corrisponde |
| 2 | Milano | ~1,4M | 2,8M / 2 = 1,4M | ✅ Perfetto! |
| 3 | Napoli | ~0,92M | 2,8M / 3 ≈ 0,93M | ✅ Quasi uguale |
| 4 | Torino | ~0,85M | 2,8M / 4 = 0,7M | ❌ Più grande del previsto |
| 5 | Palermo | ~0,65M | 2,8M / 5 = 0,56M | ❌ Più grande |
Osservazione:
- Le prime 3 città seguono quasi perfettamente Zipf.
- Torino e Palermo sono più popolose del previsto (fattori storici e geografici influenzano).
2. Stati Uniti (2020)
| Rango | Città | Popolazione | Pop. teorica (Zipf) | Realtà vs Zipf |
|---|---|---|---|---|
| 1 | New York | 8,8M | 8,8M (P₁) | ✅ Corrisponde |
| 2 | Los Angeles | 3,9M | 8,8M / 2 = 4,4M | ❌ Più piccola |
| 3 | Chicago | 2,7M | 8,8M / 3 ≈ 2,93M | ✅ Vicino |
| 4 | Houston | 2,3M | 8,8M / 4 = 2,2M | ✅ Quasi uguale |
| 5 | Phoenix | 1,7M | 8,8M / 5 = 1,76M | ✅ Corrisponde |
Osservazione:
- New York domina, ma Los Angeles è più piccola del previsto.
- Chicago, Houston e Phoenix seguono bene la legge.
3. Francia (2020)
| Rango | Città | Popolazione | Pop. teorica (Zipf) | Realtà vs Zipf |
|---|---|---|---|---|
| 1 | Parigi | 2,1M | 2,1M (P₁) | ✅ Corrisponde |
| 2 | Marsiglia | 0,87M | 2,1M / 2 ≈ 1,05M | ❌ Più piccola |
| 3 | Lione | 0,52M | 2,1M / 3 = 0,7M | ❌ Più piccola |
| 4 | Tolosa | 0,49M | 2,1M / 4 ≈ 0,53M | ✅ Vicino |
| 5 | Nizza | 0,34M | 2,1M / 5 = 0,42M | ❌ Più piccola |
Osservazione:
- Solo Parigi segue Zipf, le altre sono più piccole → forte centralizzazione su Parigi.
4. India (2021)
| Rango | Città | Popolazione | Pop. teorica (Zipf) | Realtà vs Zipf |
|---|---|---|---|---|
| 1 | Mumbai | 20,9M | 20,9M (P₁) | ✅ Corrisponde |
| 2 | Delhi | 16,8M | 20,9M / 2 ≈ 10,5M | ❌ Molto più grande |
| 3 | Bangalore | 12,8M | 20,9M / 3 ≈ 7M | ❌ Più grande |
| 4 | Hyderabad | 9,7M | 20,9M / 4 ≈ 5,2M | ❌ Più grande |
| 5 | Ahmedabad | 8,1M | 20,9M / 5 ≈ 4,2M | ❌ Più grande |
Osservazione:
- Zipf fallisce in India: troppe città giganti (effetto "megalopoli").
Assume una relazione matematica perfetta ma molti fenomeni reali hanno deviazioni:
| Paese | Esponente Zipf s (MLE) | Note |
|---|
| Italia | ~0.77 | Discesa apprezzabile, ma con deviazioni sulle città piccole |
| Germania | ~0.85 | Buon fit, ma king effect contenuto |
| Francia | ~0.67 | Primato di Parigi impatta l’interno della distribuzione |
| Spagna | ~0.77 | Discreta aderenza nonostante Madrid e Barcellona siano più grandi |
Si ricava che per molte nazoni occidentali la prima città è spesso più grande del previsto (King effect) come Parigi,Londra,Bangkok ecc.. e che questo può anche essere derivato da cause storiche (importanza che ha avuto la monarchia in quel paese). Le città minori poi formano una “coda” più numerosa e piccola di quanto la legge predirebbe — specialmente in paesi con molti piccoli comuni come l’Italia .
I modelli di previsione cumulativa spiegano Zipf: le città grandi tendono ad attrarre più risorse e persone, amplificando le loro dimensioni, mentre modelli più sofisticati (es. Fokker–Planck) mostrano che Zipf emerge da flussi migratori casuali e regole di sviluppo urbano,alcune grandit città per esempio raggiungono
una soglia critica per cui diventano meno attraenti a causa di affitti altissimi ( es. Milano,Roma, San francisco ecc...) e congestione e qualità della vita ( traffico elevato, inquinamento, trasporti pubblici inefficienti ecc...) spingendo le persone che non possono permettersi l' elevato costo della vita in centri vicini o minori.