PageRank, nofollow e outlinks

Pubblicato il 22/08/2007 da Stefano Cazzella in Web 2.0

Navigando di blog in blog, mi sono imbattuto nell’ennesima controversia sulla dispersione di page rank imputabile ai link in uscita (outlink) da una pagina web. Tipicamente le tesi che si contrappongono sono:

  • TESI 1: poiché il page rank (PR) di una pagina A dipende unicamente dai link in ingresso (inlink o backlink) e dal page rank delle pagine che la referenziano, l’aggiunta di un link in uscita (outlink) non altera il page rank della pagina A (semmai quello delle pagine referenziate da A);
  • TESI 2: il page rank di una pagina dipende dal page rank delle pagine che lo referenziano, ma poiché la somma dei page rank di tutte le pagine è sempre 1, se una pagina A aggiunge un link verso una pagina B quest’ultima vedrà aumentare il proprio page rank (grazie al nuovo contributo positivo portato da A) e quindi affinché la somma di tutti i page rank rimanga 1 il page rank di A deve essere necessariamente diminuito;
  • TESI 3: il page rank dipende dalla topologia dell’intera rete di pagine; aggiungere un link in uscita modifica tale topologia facendo variare il page rank di tutte le pagine in maniera imprevedibile se non si ha una conoscenza completa di tutte le interconnessioni.

Quali tesi sono vere e quali false?

La discussione che ha animato le mie riflessioni nasceva dall’utilizzo della direttiva nofollow inserita automaticamente nei link dei commenti dalle principali piattaforme di blogging (inclusa WordPress) per arginare il fenomeno dello spam. Tale direttiva fa si che i motori di ricerca (Google) ignorino i link marcati “nofollow” nel calcolo del pagerank delle pagine referenziate (riducendo il movente dello spamming). Come rammentato da Stefano Gorgoni sono altri gli strumenti con cui controllare il fenomeno dello spam. Il web si fonda sui collegamenti ipertestuali fra pagine semanticamente correlate (come lo sono i commenti/trackback di un blog, se ben moderati) e quindi anch’io ho deciso di eliminare la direttiva nofollow dal mio blog (usando il plug-in consigliato da Stefano) indipendentemente dalle fluttuazioni di page rank che tale scelta possa comportare.

Dopo questa doverosa premessa veniamo all’esame delle tesi proposte in apertura.

Il pagerank di una pagina A è calcolato come la somma dei page rank delle pagine Ti che referenziano A, ciascuno diviso per il numero dei link in uscita da tali pagine indicato con C(Ti):

PR(A) = (1-d)/m + d*(PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

La TESI 1 si basa sulla constatazione che poiché C(A) (il numero di link in uscita da A) non comprare nella formula di calcolo di PR(A), il page rank di A non è influenzato da tale valore. In realtà la definizione è ricorsiva (nella definizione della regola di calcolo compare la funzione stessa) e questo crea delle dipendenze circolari nel calcolo del page rank.

Figura 1

Ad esempio se due pagine A e B si referenziano reciprocamente, PR(A) dipenderà da PR(B), ma anche PR(B) dipenderà da PR(A). Se, come nell’esempio riportato in figura, A referenzia anche un’altra pagina D, il contributo portato da A a B si dimezza essendo C(A) = 2, il che fa diminuire PR(B); poiché PR(A) dipende da PR(B) essendoci un link da B ad A di fatto il calcolo di PR(A) è influenzato, attraverso il calcolo di PR(B), dal numero di link in uscita da A.

Esempio

Per confutare la TESI 2 è necessario un esempio un po’ più articolato. Prendiamo due siti A e B composti da due pagine ciascuno; ogni sito ha poi una delle sue pagine referenziata da altre pagine esterne. La situazione speculare dei due siti è quella riportata nella figura seguente. I page rank delle pagine, come la topologia della rete, sono perfettamente simmetrici.

Figura 2

Se ora inseriamo un link fra una pagina di A e una delle sue pagine esterne (diciamo un classico scambio incrociato di citazioni fra due blog A e AF) i page rank delle pagine dei due siti variano; in particolare A ha “disperso” parte del suo page rank a favore del blog amico AF. La redistribuzione di page rank è tutta interna alle pagine di A e AF. Il sito B, geloso del suo page rank, ha preferito non citare nessuno e ha mantenuto inalterato il suo page rank.

Figura 3

Prima o poi un link esterno scappa sempre; per mantenere la simmetria facciamo sì che entrambi i blog referenzino una pagina comune C (una fonte che non si può proprio non citare!). Il bilancio di link in uscita è sempre in favore del blog B essendo C(A1) = 3 e C(B1) = 2, ma il page rank di A1 è maggiore di quello di B1! Inoltre complessivamente il page rank di A (0,283) è maggiore di quello di B (0,274). Cosa è successo?

Figura 4

In effetti quello che è successo è che A ha suddiviso il proprio page rank fra C e il suo “eco-sistema” AF con cui condivide page rank; quest’ultimo, referenziando a sua volta A, ha contribuito a restituirgliene una parte. B invece ha alimentato unicamente il page rank di C lasciando il suo “eco-sistema” BF all’asciutto. Di fatto il link in più verso AF2 ha salvato parte del page rank di A1.

Questo confuta anche la seconda tesi, ma cosa dire della TESI 3? Il primo outlink aggiunto ad A1 nell’esempio precedente ha fatto perdere ad A parte del proprio page rank, ma si è rivelato cruciale nel momento in cui la topologia della rete è cambiata e sia A1 che B1 hanno referenziato C. L’aggiunta di un outlink può quindi comportare a priori tanto un incremento quanto un decremento di page rank. Solo la conoscenza della topologia della rete può discriminare i due casi. Su reti molto ampie (tipo Internet) è però possibile costruire dei modelli locali che anche senza conoscere tutta la topologia delle pagine del web possono approssimare l’effetto di un nuovo outlink sul page rank della pagina. Quindi in definitiva (se pur con qualche approssimazione) neanche la terza tesi è del tutto vera.

5 commenti »

  1. Commento di Traffyk
    23 August 2007 @ 13:42

    Sono contento che abbiamo un altro convertito al do follow:D Certo che secondo me il nofollow non ha mai ostruito minimamente il fenomeno dello spam. Allo spammer più che un PR alto conta il CTR, ho letto da qualche parte (non ricordo dove altrimenti l’avrei linkato, forse Punto Informatico) che con uno-due click ogni 100 moltiplicati per un bel po di volte lo spammer riesca a guadagnare anche 12mila dollari al giorno in casi proprio estremi.

    Il pr è una cosa a cui ho rinunciato, sono stabile da anni a 3 mi piacciono molto di più le classifiche di technorati e blogbabel che sono molto più immediate e reali.
    AH…. sono arrivato qui cercando web 2.0 su blogbabel i tuoi articoli mi sono piaciuti ed ora ti seguirò con il feed rss :D
    Complimenti davvero un bel blog!

  2. Commento di Stefano Cazzella
    23 August 2007 @ 21:48

    Probabilmente hai ragione: non è dal buon posizionamento su Google che gli spammer traggono maggior beneficio. Francamente sono “ingenuamente” stupito anche del fatto che traggano benefici economici dallo loro attività.

    Riempire un blog (anzi 1000, perché in quelli da 1000 contatti al giorno non ci sono molte chance di inserire spamm gratuitamente) con commenti che referenziano 200 link sadomaso annegati in porzioni di testo del tutto farneticante nell’ambito di una discussione sugli effetti del tag “nofollow” non riesco proprio a capire che vantaggi porti anche in termini di CTR.

    Magari proverò a pubblicare uno dei 10 commenti spazzatura filtrati da Akismet ogni giorno per registrare quanti utenti abbandoneranno la lettura dei commenti del post per seguire uno dei suoi link.

    Sarei curioso di misurare l’efficacia di questa pratica, perché pur essendo a costi pressoché nulli, ho qualche dubbio sulla sua efficacia. Non so se vale la stessa logica delle televendite: se ce ne sono così tante che vanno in onda vuol dire che la gente compra.

  3. Commento di Traffyk
    24 August 2007 @ 13:02

    Probabilmente sul tuo blog lo spam avrà poca vita anche se pubblicatop perchè i tuoi utenti diciamo sono un di un livello più avanzato e sanno riconoscere a priori un commento buono da uno di spam. Ma prendi quei blog che fanno tanto scalpore tipo quelli che parlano di Msn Messenger, dei gossip televisivi e lasciamelo dire di tutte le cazzate che ci sono sul web, quei posti sono frequentati da una massa di utenza, meglio conosciuti come utonti, che al solo leggere di titoli come Free Sex here, o altro… cliccano cliccano.

    In effetti basterebbero 10 minuti per spiegare come fare a riconoscere dello spam, ma il problema è inculcare nelle testoline degli utonti queste cosine.

  4. 27 August 2007 @ 23:42

    Qualche novità sul blog…

    Oggi è stata una giornata di pulizie… dopo aver sistemato le faccine, ho rivisto la lista dei plugin che utilizzo.
    Ho eliminato alcuni plugin e… svuotato per benino la tabella wp_options che erroneamente era rimasta piena di record creati …

  5. Commento di hidaba
    28 August 2007 @ 10:10

    bell’articolo, sei stato molto chiaro e nella chiarezza si è visto che non è poi cosi’ facile.
    Anche io ho tolto il nofollow, non tanto per il PR ma perchè lo spam va combattutto con plugin come askimet e con la moderazione, se un commento è ‘buono’ è giusto che porti referenza.

RSS feed for comments on this post. TrackBack URL

Lascia un commento