Archive for the ‘PageRank’ Tag

PageRank Simulator

Pubblicato il da Stefano Cazzella in Software

The PageRank Simulator is a simulation environment for the page rank algorithm. You can design a page network (a graph) and calculate the page rank for every page. The pages could be arranged in page groups and more scenarios could be compared. The following tutorial gives you an idea of the main functionalities of the PageRank Simulator.

To download and run the PageRank Simulator you should have a Java Runtime Enviroment 1.5+ with Java Web Start enabled.

The PageRank Simulator can be used freely for personal and commercial purposes. If you publish analysis or images realized with the help of this software, please reference it, its author (Stefano Cazzella) and this page in your publications.

Tutorial

Download and Run

Java Web Start (JWS) is an easy way to launch full-featured, always-updated applications with a single click from your Web browser. It is included with the latest Java runtimes (JRE). If JRE (version 1.5 or above) is installed on your computer, you can run the most recent version of the PageRank Simulator clicking the following link.

If the link above doesn’t work, you can update your Java version here or get other Java Web Start versions and information from their product page.

History

1.0 – The first GA release of the PageRank Simulator

 

PageRank, nofollow e outlinks

Pubblicato il 22/08/2007 da Stefano Cazzella in Web 2.0

Navigando di blog in blog, mi sono imbattuto nell’ennesima controversia sulla dispersione di page rank imputabile ai link in uscita (outlink) da una pagina web. Tipicamente le tesi che si contrappongono sono:

  • TESI 1: poiché il page rank (PR) di una pagina A dipende unicamente dai link in ingresso (inlink o backlink) e dal page rank delle pagine che la referenziano, l’aggiunta di un link in uscita (outlink) non altera il page rank della pagina A (semmai quello delle pagine referenziate da A);
  • TESI 2: il page rank di una pagina dipende dal page rank delle pagine che lo referenziano, ma poiché la somma dei page rank di tutte le pagine è sempre 1, se una pagina A aggiunge un link verso una pagina B quest’ultima vedrà aumentare il proprio page rank (grazie al nuovo contributo positivo portato da A) e quindi affinché la somma di tutti i page rank rimanga 1 il page rank di A deve essere necessariamente diminuito;
  • TESI 3: il page rank dipende dalla topologia dell’intera rete di pagine; aggiungere un link in uscita modifica tale topologia facendo variare il page rank di tutte le pagine in maniera imprevedibile se non si ha una conoscenza completa di tutte le interconnessioni.

Quali tesi sono vere e quali false?

(continua…)

 

Le misure contano? (BarCamp / RomeCamp 2007)

Pubblicato il 30/01/2007 da Stefano Cazzella in Web 2.0

Al BarCamp di Roma della settimana scorsa ho proposto alcune riflessioni su come e perché misurare la blogosfera. Di seguito ho riportato le slide utilizzate durante l’intervento (chi non riesce a visualizzarle può andare direttamente su slideshare dove sono pubblicate assieme a molti altri interventi del BarCamp o scaricare la versione in PDF)

Lo spunto per le riflessioni è nato dalle discusioni intrecciate fra vari bloggers (fra i migliori post quelli di Axel su I blog it!, Suzukimaruti e Giuseppe Granieri su Apogeonline) circa le motivazioni che spingono all’irrefrenabile istinto di misurare la propria celebrità e il significato indotto che può essere attribuito da osservatori esterni (ma interessati al fenomeno) ai risultati misurati. Esprimere numericamente e sinteticamente l’importanza attribuita ai diversi blog serve sia a posizionare i blog all’interno della blogosfera e facilitare l’emersione dei contributi di maggior valore, che a raffrontare il fenomeno con i numeri di altri settori editoriali esterni, ma spesso contigui, alla blogosfera. L’interesse per metriche di questo tipo è alta sia in Italia che fuori anche in relazione alla crescita esponenziale del fenomeno blog la cui analisi quantitativa risulta tutt’altro che semplice senza un sistema di misura condiviso e attendibile nelle sue rilevazioni.

Gran parte delle metriche definite a tale scopo sono ispirate (spesso liberamente) al “mitico” algoritmo dei ragazzi di Google noto come PageRank. Tali metriche si basano sul concetto di citazione: più una pagina/post/sito/blog è citato da altre pagine, più questo è ritenuto di interesse. Technorati, ad esempio, per il suo posizionamento nella classifica generale utilizza il numero di link diretti verso un blog come indice della sua importanza. Fra i principali difetti di questo approccio (tralasciando le storture imputabili alle implementazioni orientate alla struttura dei siti web 1.0) citerei l’auto-referenzialità: l’unico giudizio che viene tenuto in conto è il giudizio di chi pubblica contenuti su Internet che ha quindi la possibilità di inserire link all’interno delle proprie pagine. Così all’elezione per il miglior blog del mondo, gli elettori partecipanti sono solo i bloggers (che si presume siano una minoranza rispetto all’utenza della blogosfera).

Tale approccio però non è l’unico adottabile. Nella presentazione vengono citate altre due classi di metriche:

  • metriche basate sul numero di lettori – analogamente a quanto viene fatto per i media tradizionali si misurano le preferenze del pubblico; per realizzare analisi di questo tipo gli strumenti più efficaci sono i borwser stessi (o loro estensioni tipo google-bar) che consentono di raccogliere e centralizzare (previo consenso degli utenti e nel rispetto dei vincoli della privacy) le URL delle pagine visitate dagli utenti per redigere una classifica dei siti/blog più frequentati o delle pagine/post più lette;
  • metriche basate sulle raccomandazioni – gli utenti (non necessariamente bloggers) possono promuovere i post/blog che ritengono di maggior interesse; questo approccio premia il contributo attivo degli utenti senza limitare ai soli addetti ai lavori la possibilità di esprimere un giudizio. Gli strumenti di riferimento sono aggregatori come digg o sistemi di social bookmarking a la del.icio.us; anche in questo caso si possono naturalmente utilizzare strumenti di voto/bookmarking integrati nei browser (ce ne sono già diversi esempi).

Come sempre ogni approccio ha i suoi pro e i suoi contro. La soluzione migliore sarebbe forse riuscire a pesare opportunamente il contributo di ognuno; ma, in assenza di un criterio oggettivo di valutazione, la scelta dei pesi diventa una scelta politica.