Il concetto di PageRank di Google
25 Gennaio 2011Il PageRank è un algoritmo di analisi che assegna un peso numerico ad ogni elemento di un collegamento ipertestuale da un insieme di documenti, lo scopo è di quantificarne l’mportanza relativa all’interno della serie.
L’algoritmo può essere applicato a tutti gli insiemi di oggetti collegati da citazioni e riferimenti reciproci di un ipertesto o anche direttamente nelle pagine web. Il risultato è un peso numerico che viene assegnato ad un determinato elemento X e viene chiamato anche PageRank di X o PR (X).
L’algoritmo è stato brevettato dalla Stanford University (con brevetto US 6285999), è un termine ormai entrato di forza nel lessico comune dei fruitori dei motori di ricerca.
La storia
Larry Page e Sergey Brin, studenti dell’Università di Stanford, hanno sviluppato la teoria secondo cui un motore di ricerca basato sull’analisi matematica delle relazioni tra siti web, avrebbe prodotto risultati migliori rispetto alle tecniche empiriche usate precedentemente.
Erano convinti che le pagine citate con un maggior numero di link fossero le più importanti e meritevoli, decisero così di approfondire la loro teoria all’interno dei loro studi e posero le basi per il loro primo motore di ricerca.
I due fondatori, Page e Brin, cercavano ora un nome che potesse rappresentare la capacità di organizzare l’immensa quantità di informazioni disponibili sul Web.
Dopo alcune ricerche utilizzarono un nome già quasi esistente: Googol. Era un termine coniato dal nipote del matematico statunitense Edward Kasner nel 1938, termine che usava per riferirsi ad un numero rappresentato da 1 seguito da 100 zeri. A Page e Brin sembrò perfetto come metafora della vastità del web. Il termine viene inoltre associato (con un gioco di parole) a goggles (binocolo in inglese), appunto perché il motore permette di esplorare la rete fino a guardarla da vicino.
Quindi successivamente, nel 27 settembre 1998, fondarono l’azienda Google (ormai universalmente conosciuta) dove il termine PageRank è diventato un marchio di Google:
I più attenti avranno anche notato che sui risultati di ricerca di google, in basso, la parola gooooooogle si allunga con molti ooooo a seconda dei risultati ottenuti, a conferma del significato del termine Googol appunto un numero con moooooolti zeri!
Concetto di PageRank
Ma torniamo al PageRank (successivamente abbreviato con PR), questo è un numero (con valori che vanno da 0 a 10) che Google attribuisce indistintamente ad ogni pagina Web che indicizza. Un valore questo non facile da ottenere, ma che si può vedere scaricando la toolbar di google oppure usando il servizio che vi offriamo di seguito, in fondo la questo articolo.
Tal valore viene calcolato utilizzando complessi algoritmi che fanno ricorso all’uso della teoria dei processi di Markov e si basa sui link ricevuti da una pagina (il valore di PR sale anche con l’aumentare del numero di link che puntano alla pagina), ma, a differenza della semplice Link Popularity, invece di tener conto solo della quantità dei link ricevuti, il PageRank prende in considerazione anche il valore di PR delle pagine che offrono tali link. In pratica un link ricevuto da una pagina che ha un PR alto vale molto di più di un Link ricevuto da una pagina con PR basso.
E’ un concetto che sembra un po’ astruso ma è facilmente associabile alla popolarità tipica delle relazioni sociali umane e si ripromette di indicare le pagine (o i siti) di maggiore rilevanza in relazione ai termini ricercati.
Il metodo può essere un po’ avvicinato al sistema elettorale nel quale ha diritto al voto solo chi può pubblicare una pagina web ed il voto viene espresso attraverso i collegamenti in essa presenti. Però qui i voti non hanno tutti lo stesso peso perché le pagine web più popolari esprimeranno, coi propri link, voti di valore maggiore. Il valore di PageRank di una pagina quindi, non indicherà semplicemente il suo grado di diffusione sul web, ma ne dovrebbe indicare il suo grado di autorevolezza.
Per chiarezza va pure detto che il PageRank è solo uno dei tanti fattori (ma non l’unico) che contribuisce a determinare la posizione di una pagina web nei risultati di ricerca di un motore, anzi sembra che ultimamente non abbia più nemmeno troppa importanza (forse perché vengono presi in considerazione indicatori ben più affidabili ed efficienti).
Sono comunque segreti industriali non disponibili al pubblico, quindi difficili da valutare, molti esperti ne deducono solamente gli effetti a seguito di sperimentazioni empiriche, ma non si potranno mai avere delle certezze assolute.