Progetto 50PDA Elaborazione dell’Indice S

Progetto 50PDA Elaborazione dell’Indice S

05/12/2017 0 Di Silvano Orsini

Ipotesi sperimentale di un Indice SEO per i contenuti dei siti web


Il campione statistico individuato dal progetto 50PDA, un sottoinsieme della popolazione del web, ha restituito una serie di dati utili per capire come un Bot SEO sceglie i siti web. Serve un passaggio ulteriore per cercare un’indicazione sensata sulla keyword density delle pagine

Sappiamo da tempo che concentrarsi eccessivamente sulla keyword density rischia di peggiorare la qualità e la leggibilità dei contenuti rivolti agli utenti.

La virtù sta nel mezzo

A mio modo di vedere, un Bot SEO deve necessariamente appoggiarsi a un dato numerico esplicito o intrinseco del sito web, della home page o di una pagina in esame. Un dato preso singolarmente non ha alcun senso, ma rilevare lo stesso dato su soggetti con caratteristiche simili può diventare interessante. Mi piace la locuzione latina:

In medio stat virtus

il cui significato, tradotto in termini matematici non mi è sembrato il merito di usare un mezzo o di fare una media, piuttosto quello di determinare gli estremi di un campo di analisi e individuare un “baricentro” del fenomeno in esame.

La matrice come metodo di studio

Disporre i dati ordinati per righe e colonne induce un procedimento sistematico e sequenziale in qualsiasi progetto di studio; in verticale si raccolgono i dati delle entità coinvolte e in orizzontale si scorgono le relazioni tra grandezze espresse dai numeri. Credo che l’invenzione del foglio di calcolo da parte di Dan Bricklin nel 1978 sia stato tra gli eventi più significativi per l’informatica e la ricerca.

Il cuore del progetto 50PDA consiste nella moltiplicazione di un dato assoluto (TFI = frequenza delle keyword) con un dato relativo (KDI = densità) che tiene conto della lunghezza del testo all’interno della pagina.

Ho ipotizzato che facendo la sommatoria dei tre prodotti frequenza keyword * densità di ogni sito potevo ottenere un dato statistico utile:

nr K1 * %K1 + nr K2 * %K2 + nr K3 * %K3 = Indice S grezzo

Nell’esempio del precedente post si ottiene:

nr K1% K1nr * % K1nr K2% K2nr * % K2nr K3% K3nr * % K3Indice S grezzo
 113,2035,2063,4920,9421,743,4860

Elaborazione dell’Indice S

In questo passaggio ho ignorato completamente il significato delle keyword e ridotto le 150 combinazioni a un dato unico per ogni sito preso in esame.

Gli Indici S grezzi ordinati in modo crescente, delineano un comportamento dei contenuti rispetto al conteggio delle keyword e alla densità in relazione alla lunghezza dei testi.

Avendo intuito una concentrazione in uno spazio monodimensionale degli Indici S grezzi, ho usato la geometria, disponendo i numeri su di un segmento di linea retta, avente come primo punto il minore dei numeri ottenuti e come secondo punto quello maggiore. Questo segmento determina gli estremi, i limiti del campo di analisi per individuare il baricentro del fenomeno.

Supponiamo ora di suddividere ulteriormente la lunghezza di questo segmento i parti perfettamente uguali, in modo da disporre gli Indici S grezzi nei corrispondenti sottosegmenti; in questo modo si potranno verificare se e dove si formano una o più concentrazioni di numeri. Per semplificazione, ho preferito arrotondare il risultato del calcolo degli Indici S grezzi all’insieme dei numeri naturali (interi positivi).

Indice S 50PDA
Indice S 50PDA

Provo un’istintiva simpatia per i numeri primi, mi sembrano naturalmente stabili e pieni di significati. Escludendo il 2 e il 3, perché darebbero poche suddivisioni, ho preso in considerazione il numero 5.

L’Indice S corrisponde quindi alle 5 suddivisioni del segmento iniziale, numerate in sequenza 1, 2, 3, 4 e 5.

Dopo aver distribuito i 50 Indici S grezzi nel sottosegmento di competenza, si contano i punti presenti in ogni suddivisione (frequenza).

Istogramma e dati dell’Indice S 50PDA

Il grafico finale dell’Indice S relativo al progetto 50PDA è il seguente:

Indice S 50PDA
Indice S 50PDA

I dati relativi agli estremi del campo di analisi (estremi del segmento) sono i seguenti:

nr K1% K1nr * % K1nr K2% K2nr * % K2nr K3% K3nr * % K3Indice S grezzoIndice S
130,638,1980,786,2430,441,32161
497,00343,00205,71114,20208,57171,406295

Nel prossimo articolo sono stati pubblicati altri dati significativi, congiuntamente alle conclusioni di carattere generale sul progetto 50PDA.