I Motori di Ricerca dell’Oro

I Motori di Ricerca dell’Oro

31/01/2018 0 Di Silvano Orsini

Oggi il web rappresenta la nuova frontiera per il “processo di estrazione di conoscenza” e il valore dell’informazione elaborata elettronicamente


A conclusione del progetto 50PDA emergono il Data Mining e la Knowledge Discovery in Databases (KDD)

… col nome data mining si intende l’applicazione di una o più tecniche che consentono l’esplorazione di grandi quantità di dati, con l’obiettivo di individuare le informazioni più significative e di renderle disponibili e direttamente utilizzabili nell’ambito del decision making.

Fonte: CINECA

La keyword density ideale non esiste

Supponiamo che il più famoso motore di ricerca per contenuti, utilizzi un algoritmo di valutazione come quello descritto nel precedente articolo. A differenza della procedura descritta, completamente manuale, un Bot SEO dispone di enormi risorse di calcolo.

Supponiamo anche che questo algoritmo sia in grado di dare una valutazione istantanea sulla SEO di centinaia di siti messi a confronto, combinando le informazioni in modo creativo e scoprendo dei patterns, dei modelli ricorrenti dovuti alla gestione ordinaria dei contenuti testuali, trovando un “baricentro” di normalità delle keyword rilevate.

Grazie alla capacità di elaborazione di potenti computer, grazie ai Big Data, il segmento descritto dall’indice S potrebbe espandersi e incrociare i dati verso altre direzioni, per fornire nuove informazioni preziose come l’oro, come la zona geografica, la lingua o il settore specifico.

La keyword density è un dato estremamente dinamico, è impossibile da conoscere in quanto soltanto il Bot SEO conosce il campionamento statistico dei siti per rilevare il modulo di normalità.

Istogramma e dati dell’Indice S 50PDA

Contrariamente alle mie aspettative, il grafico finale dell’Indice S evidenzia il baricentro del fenomeno sul primo intervallo e non su quello centrale.

Indice S 50PDA
Indice S 50PDA

I dati relativi agli estremi del primo intervallo (maggiore densità = normalità dei contenuti) sono i seguenti:

nr K1% K1nr * % K1nr K2% K2nr * % K2nr K3% K3nr * % K3Indice S grezzoIndice S
130,638,1980,786,2430,441,32161
112,6929,59115,3859,186,004,4026,401151

 

Conclusioni

Non posso affermare che l’Indice S sia un sistema infallibile, anche se le percentuali relative alla keyword density rientrano nelle indicazioni standard. Eliminando i due valori estremi dall’ultimo intervallo ci sarebbe una distribuzione più uniforme del fenomeno, ma allora non sarebbe più il progetto 50PDA.

Supponendo che Googlebot “assuma” per il lavoro d’indicizzazione i siti giudicati positivamente in elaborazioni consecutive, confrontandoli con nuovi siti appena scoperti, il sistema potrebbe dare il via a un ciclo infinito di perfezionamento del processo.

Paradossalmente, è il web che lavora per Google e non viceversa.