Analisi statistica della diffusione di Thunderbird

Stavo sistemando tutte le Email nel mio archivio. Essendo Online dai primi del 1999 avevo una moltitudine di Email vecchie e nuove che mi hanno seguito nella mia professione di informatico. Credo di poter dire che ho usato la posta in quasi tutti i modi possibili conosciuti, su Windows con le prime versioni di Outlook, poi dal Web (perchè molto più comodo per me visto che mi barcamenvavo tra università, casa ed ufficio) e approdando, infine, all’ottimo Thunderbird. Thunderbird (giunto alla versione 0.9) ha una particolarità molto interessante, ovvere permette di importare i messaggi da praticamente tutti i programmi di posta esistenti (sia su Win che su Linux). Con un po’ di pazienza, quindi, ho importato tutti i messaggi (per la posta di outlook ho dovuto utilizzare la versione di Thunderbird per Windows); risultato, dal 1999 ad oggi (fine 2004) ho ricevuto 4800 email; certo non tutte sono state inviate da persone, molte saranno sicuramente di forum, mailing list e quanto altro possa esistere su internet.
Con una mole così grande di email ricevute (e circa 2000 email inviate) mi sono messo a spulciare nei file che contengono le email; ebbene si, l’idea di avere queste quasi 7000 email in qualche modo andava pur sfruttato (a mio vantaggio, ovviamente).Come prima cosa ho pensato di mandare un’email a “tutti” quelli che mi avevano scritto e a cui avevo scritto; dovevo però tirare fuori gli indirizzi email dai file di Thunderbird (Thunderbird utilizza un file per ogni cartella, la procedura qui descritta è stata utilizzata per ogni file), ed ecco che mi arrivano in soccorso due comandi linux “cat” e “grep”, il primo riproduce a video (standard output) tutto un file (se gli si dà come input), il secondo cattura solo le righe che contengono una determinata parola o frase.
Così per sapere da chi avevo ricevuto le email, ecco che faccio un bel:

# cd .thunderbird/default.lpr/Mail/mymail/
# cat Inbox | grep From: > from.txt

In questo modo ho estratto tutti i campi “From:” dalle email ricevute e di conseguenza ho tutti gli indirizzi di chi mi ha scritto (mancano i campi CC: e BCC:, ma forse è meglio, visto che molte email sono Catene di Sant’Antonio).
Analogamente ho fatto per quelli a cui ho inviato le Email, con il comando

# cat Sent | grep To: > to.txt

Ho dovuto poi “pulire” il file to.txt a mano, perchè conteneva anche il campo “Reply-To:” (cioè il mio indirizzo) ed altri.
A questo punto mi sono trovato con due file di testo, uno con circa 5000 indirizzi e l’altro con circa 2000 indirizzi (più o meno corrispondenti alle email ricevute); certo, sicuramente molti sono “ridondanti”, ma questo è un problema di cui mi occuperò in futuro, ho idea di fare un programmino in Java che non solo estrae gli indirizzi, ma li conti, in modo da sapere anche “con chi” ho scambiato email più spesso.

Mail Client
A questo punto ho pensato “Perchè non fare una statistica di quali Mail Client sono stati usati più spesso?”; ovviamente non potevo usare le email inviate (cioè le mie) perchè avrebbero falsato le statistiche. Ho quindi deciso di operare solo sul file Inbox (che contiene tutte le 5000 email dal 1999 ad oggi). Mentre 5000 visite sono una molte “piccola” per un sito web, non lo sono affatto per le email e, quindi, una statistica su una tale quantità è abbastanza indicativa (anche se non assoluta, ovviamente). Non ho diviso le Email per anno, perchè in definitiva volevo solo vedere i mail client più utilizzati. Ho fatto quindi…

# cat Inbox | grep User-agent: > useragent.txt (per catturare i mail client per Linux e Mac)
# cat Inbox | grep X-Mailer: > xmailer.txt (per catturare principalmente Outlook)
# cat Inbox | grep X-mailer: > xmailer2.txt (con la m piccola, usato da alcuni programmi)

Ho poi unito i file:

# cat useragent.txt xmailer.txt xmailer2.txt > mailclient.txt

A questo punto ho ottenuto un file che contiene tutte le informazioni sui vari programmi di posta utilizzati; da una parte è possibile vedere, non solo quali sono i programmi più famosi, ma anche quali sistemi operativi vengono usati.
La particolarità di questa mia presunta statistica da una parte è abbastanza importante, io ho ricevuto email da moltissime persone (molte anche sconosciute, magari per richieste di aiuto con il PHP e/o con Linux), quindi sono rappresentative di una “popolazione” di internet abbastanza attiva (che lavora, studia o programma) e non limitata, quindi, solo a chi naviga due ore al mese e manda 10 email all’anno per far vedere la foto fatta con il videofonino.

Le statistiche
La prima statistica interessante riguarda il numero di Email senza un campo identificativo del programma di posta, infatti:

4800 – Mail totali
2826 – User agent riconosciuti

Cioè circa il 42% delle mail che ho ricevuto non contengono un campo identificativo, sono, presumibilmente, inviate da programmi automatici di siti web o di mailing list, anche se molto probabilmente ci sono “nel mezzo” email inviate da persone che non contenevano questo campo (magari perchè in alcuni programmi non era obbligatori, oppure è stato perso durante la conversione delle email più vecchie). Fatto sta che il nosto campione si è notevolmente ridotto, anche se, lo ripetiamo, continua, comunque, ad avere una valenza “statistica”.
Di queste 2826 Email sono stati identificati i seguenti programmi:

1493 – Programmi Microsoft
324 – WEBSITE
207 – Programmi Mozilla
192 – Eudora
173 – WEBMAIL
88 – KMail
81 – NON CHIARI
74 – SquirrelMAil
43 – AppleMail
26 – ALTRI
17 – Evolution
17 – IncrediMail
13 – Kana Connect
12 – Sylpheed
10 – The Bat!
10 – Pegasus
9 – VisualMail
9 – WinNT Blat
8 – Lotus notes
7 – Mutt
7 – SunMail
3 – Opera
2 – WAP
1 – Aol

In percentuale:

52,83% – Programmi Microsoft
11,46% – WEBSITE
7,32% – Programmi Mozilla
6,79% – Eudora
6,12% – WEBMAIL
3,11% – KMail
2,87% – NON CHIARI
2,62% – SquirrelMAil
1,52% – AppleMail
0,92% – ALTRI
0,60% – Evolution
0,60% – IncrediMail
0,46% – Kana Connect
0,42% – Sylpheed
0,35% – The Bat!
0,35% – Pegasus
0,32% – VisualMail
0,32% – WinNT Blat
0,28% – Lotus notes
0,25% – Mutt
0,25% – SunMail
0,10% – Opera
0,07% – WAP
0,04% – Aol

Facendo un sunto dei più importanti:

52,83% – Programmi Microsoft
11,46% – WEBSITE
7,32% – Programmi Mozilla
6,79% – Eudora
6,12% – WEBMAIL
5,36% – ALTRI
3,11% – KMail
2,87% – NON CHIARI
2,62% – SquirrelMAil
1,52% – AppleMail

Prima di procedere è importante notare che dall’analisi sui dati, risultano identificati (direttamente, assieme allo user agent, o indirettamente, se quel programma esiste solo per la data piattaforma) le percentuali relative ai sistemi operativi. Su 2826 dati, è stato possibile identificare con certezza i sistemi operativi di 2192 dati, ripartiti nel modo seguente:

1785 – Windows
325 – Linux
82 – Mac

In percentuale:

81,43% – Windows
14,83% – Linux
3,74% – Mac

Queste percentuali, non sembra, ma sono molto importanti. Studi “famosi” identificano che Linux ha si superato il Mac in diffusione, ma “secondo loro” di poco. Da questi dati (che non discordano molto, tra l’altro, dalle statistiche del mio sito web – coincidenza?) Linux ha una diffusione 4 volte superiore a quella del Mac ed, anzi, rappresenta una seria “minaccia” al dominio di Windows, non tanto di quei Windows che, ripeto, molti trovano installato, ma di quei Windows che la gente utilizza “attivamente” per lavorare o studiare. Ma tralasciamo questa considerazione (futile, dopotutto, considerando che bisogna valutare i dati con scetticismo) e ritorniamo ai programmi di posta.

Chi, come, dove?
Le altri considerazioni sono abbastanza semplici, confrontiamo, cioè la diffusione dei programmi Microsoft, in rapporto alla diffusione degli altri programmi, tenendo ben presente che il programma di posta ThunderBird è relativamente giovane, rispetto al maggiore concorrente Outlook Express.

645 – Microsoft Outlook Express 6.0
302 – Microsoft Outlook Express 5.5
278 – Microsoft Outlook Express 5.0
41 – Microsoft Outlook Express per Macintosh

2 – Mozilla Thunderbird 0.1
8 – Mozilla Thunderbird 0.2
31 – Mozilla Thunderbird 0.3
9 – Mozilla Thunderbird 0.4
64 – Mozilla Thunderbird 0.5
26 – Mozilla Thunderbird 0.6
8 – Mozilla Thunderbird 0.7
17 – Mozilla Thunderbird 0.8
2 – Mozilla Thunderbird 0.9

101 – Eudora Ver 5.1
19 – Eudora Light 3.0.6
16 – Eudora Ver 5.0
14 – Eudora Ver 6.0
11 – Eudora Ver 5.2
7 – Eudora Ver 4.3
7 – Eudora Light 3.0.1
1 – Eudora Pro 2.1
1 – Eudora Pro 4.2
1 – Eudora Ver 6.1

66 – KMail Ver 1.5
7 – KMail Ver 1.4
5 – KMail Ver 1.2
3 – KMail Ver 1.0
3 – KMail Ver 1.6
2 – KMail Ver 1.3
2 – KMail Ver 1.7

42 – SquirrelMail Ver 1.4.3
19 – SquirrelMail Ver 1.4.0
10 – SquirrelMail Ver 1.2.11
1 – SquirrelMail Ver 1.0
1 – SquirrelMail Ver 1.2.2
1 – SquirrelMail Ver 1.2.3

43 – Apple Mail

17 – (Ximian) Evolution

Notiamo, quindi, che c’è una netta (ed ovvia) maggioranza di Microsoft Outlook Express per Windows (con una piccola nicchia per la versione Mac), seguita, è ciò è molto importante, da Mozilla Thunderbird (in diffusione, circa 10 volte meno di Outlook Express). I “restanti” sono Eudora (client famosissimo per Windows), KMail (per Linux), SquirrelMail (Linux), Apple Mail (Mac) e Evolution (Linux), per lo più nella sua variante Ximian. I dati indicano, quindi, una forte crescita di Mozilla Thunderbird, visto che, sebbene la giovane età, riesce a piazzarsi alle costole di Microsoft Outlook come client di posta per il proprio computer. Inoltre molti dei “log” di Thunderbird si riferiscono anche alle installazioni Windows, dato che conferma come questo client stia diventando realmente “la soluzione” per la posta elettronica odierna. Infatti scalza i contendenti (per Linux o Windows che siano) che dovrebbero rivaleggiare con Outlook Express.

Aggiornare, perchè no? Segnaliamo qui di seguito, quali sono le versioni più diffuse dei client finora esposti ed invitiamo ad aggiornarli, in quanto, quasi sicuramente, avranno dei bug o mancheranno di alcune funzioni importanti.

Eudora Ver 5.1
KMail Ver 1.5
SquirrelMail Ver 1.4.3
Sylpheed Ver 0.9
The Bat! Ver 2
Pegasus Ver 3.12
Apple Mail
(Ximian) Evolution
Mutt Ver 1.5.6
WinNT Blat Ver 1.8.6

Segnaliamo, inoltre, che in Mozilla Thunderbird è possibile importare Email da quasi tutti i programmi qui menzionati, anzi, invitiamo a “sviluppare” almeno quelli mancanti tra i mail client (e relative versioni) qui sopra riportati.

Outlook Express, quale versione?
L’ultima considerazione va fatta sulle versioni di Outlook Express, installate, cioè non solo se la 5 o la 6, ma anche e soprattutte le “Build” relative. Una “build” fa capire quanto possa essere vulnerabile il client di posta; per capirsi, la medesima versione ma “build” diversa può stare a significare che un bug è stato corretto oppure no. Questa analisi può risultare molto utile se si pensa che molti virus e trojan si diffondono su internet proprio grazie ad Outlook Express.

139 – Microsoft Outlook Express 5.0 Build 2615
116 – Microsoft Outlook Express 5.0 Build 2919
170 – Microsoft Outlook Express 5.5 Build 4133
126 – Microsoft Outlook Express 5.5 Build 4522
209 – Microsoft Outlook Express 6.0 Build 2600
65 – Microsoft Outlook Express 6.0 Build 2720
28 – Microsoft Outlook Express 6.0 Build 2741
325 – Microsoft Outlook Express 6.0 Build 2800

Conclusioni
Questa breve statistica sui client di posta fa riflettere su alcune cose; prima di tutto la diffusione di Linux, che sta seriamente intaccando il mercato di Windows, in secondo luogo la diffusione di Thunderbird, che grazie al fatto di essere disponibile per Windows e per Linux e grazie ai tool che permettono di importare la posta di altri client, sta “faticosamente” diventando un client in grado di sostituire degnamente Outlook, la sua peccha è che forse è ancora troppo giovane e poco conosciuto (un esempio, il fatto che la versione più diffusa sia la versione 0.5, molto più limitata dell’attuale versione 0.9, che ha, ad esempio, il controllo sulle email di spamming). Altri dati interessanti che emergono sono la necessità di tool di importazione per Thunderbird relativi ai client menzionati, perchè visto che questi si sono ritagliati la loro percentuale (a volte anche significativa) nella classifica, ciò significa che creare dei tool di importazione ove questi non esistano, permetterebbe di dare maggiore spinta alla diffusione di Thunderbird, sia su Windows, ma soprattutto su Linux dove i programmi di posta sono molti e spesso “frammentati”. In ultima analisi potrebbe essere interessante notare quali versioni di Microsoft Outlook “studiate” sono ancora affette da bug; questo dato rappresenta una maggioranza, se vogliamo silenziosa, la quale prima o poi cambierà il suo client di posta in qualcosa di più affidabile.

Conclusioni
Personalmente questi dati mi permetteranno, nel rifacimento del mio sito, di creare un’area in cui si invitano i possessori di determinati programmi (sto facendo un’analisi simile con i dati del mio sito, riferita ai browser) a passare ad alternative Open Source. Nel mio piccolo spero che ciò renderà il Web un posto migliore, più sicuro ed anche un po’ più libero. Invito chi ha molte email come me a fare una cosa del genere, e magari ad inviarmi (fabrizio@ciacchi.it) i dati sui client email raccolti. Più “ordinati” mi invierete i dati, più facile sarà includerli in questo documento, in modo da rendere la statistica qualcosa di più di un’analisi fatta quasi per gioco.

Tagged : , ,