Bibliometrics

Guida pratica all'analisi bibliometrica

L'obiettivo di questo documento è guidare il lettore ad una analisi quantitativa della qualità delle pubblicazioni di uno studioso mediante gli strumenti offerti dalla bibliometria, in particolare usando le sorgenti di pubblicazioni Web of Science e Google Scholar. I parametri di qualità della ricerca che verranno considerati sono produttività e impatto.

La ricerca delle pubblicazioni in Web of Science (WoS) e in Google Scholar (GS) può essere fatta inserendo il nome dell'autore (cognome e iniziali dei nomi su WoS oppure anche cognome e nome per esteso su GS) oppure cercando una a una le pubblicazioni dell'autore su cui si vuole basare la valutazione. Il secondo metodo è più oneroso ma elimina i seguenti due problemi: (i) l'omonimia (WoS e GS), (ii) documenti trovati che non sono rilevanti per l'analisi o che sono erroneamente attribuiti all'autore (soprattutto GS). L'utilizzo del nome esteso su GS riduce il problema dell'omonimia ma ne introduce un altro: alcuni documenti, indicizzati solo con l'iniziale del nome, non vengono trovati da GS. Ad esempio, la ricerca "M Franceschet" su GS trova 70 risultati mentre la ricerca "Massimo Franceschet" ne trova 41, a fronte di 34 pubblicazione effettive dell'autore.

Le differenze di contenuto tra WoS e GS sono state oggetto di vari studi. Il più significativo è quello condotto da Meho e Yang sulle citazioni ricevute da 15 membri della School of Library and Information Science dell'Indiana University-Bloomington. Lo studio osserva che WoS contiene soprattutto articoli da rivista, mentre GS archivia diversi tipi di sorgenti, incluse conferenze e libri. Inoltre, GS trova molte più citazioni di WoS anche quando vengono considerate solo le citazioni provenienti da riviste e conferenze (quindi escludendo gli altri tipi di sorgenti indicizzati da GS ma non da WoS). Queste citazioni provengono fondamentalmente da sorgenti soggette a referaggio, di basso impatto e sono ottenute attraverso documenti messi a disposizione in rete dagli autori piuttosto che dal sito ufficiale della sorgente. Tuttavia, GS non trova una quota importante delle citazioni trovate da WoS in quanto alcuni editori concorrenti hanno impedito al motore di ricerca di accedere ai propri archivi. Dato che l'intersezione delle citazioni trovate da entrambe le sorgenti dati è relativamente modesta, gli autori suggeriscono di usare entrambe le sorgenti dati piuttosto che una sola.

Analisi della produttività

In questa fase si vuole analizzare il numero e il tipo di lavori sono stati prodotti indipendentemente dall'impatto che questi hanno avuto nella comunità di riferimento. Un primo strumento di analisi è la suddivisione per tipo dei lavori dell'autore, ad esempio in riviste, conferenze, monografie, rapporti di ricerca, tesi. A seconda del settore di ricerca, è possibile attribuire un diverso peso ai vari tipi di pubblicazione. Ad esempio, in Informatica, i prodotti della ricerca più rilevanti sono gli articoli su rivista e quelli su conferenza. All'interno di ogni categoria, è possibile assegnare qualità diverse a diversi prodotti. Ad esempio, una misura di qualità di una rivista o di una conferenza potrebbe essere il tasso di accettazione dei lavori sottomessi. Altri criteri di valutazione possono essere la presenza di un sistema basato sulla revisione dei pari (peer-review) per l'accettazione della pubblicazione oppure l'internazionalità della stessa. E' importante in questa fase usare criteri disgiunti da quelli che misurano l'impatto (potenziale) della pubblicazione per non confondere le analisi di produttività e di impatto. Ad esempio, è molto grossolano e talvolta completamente fuorviante valutare una pubblicazione in base all'Impact Factor (IF) della sorgente (ad esempio la rivista) della stessa. L'IF è calcolato annualmente da WoS per le riviste indicizzate. Ad esempio, l'IF 2007 per una data rivista è ottenuto come rapporto in cui a denominatore c'è il numero di articoli pubblicati dalla rivista nei due anni precedenti (2005 e 2006) e a numeratore c'è il numero di citazioni ricevute nel 2007 da tali articoli. Gli inconvenienti associati all'uso dell'IF per valutare il merito di una pubblicazione sono:

IF è la media delle citazioni recenti ricevute da articoli recenti pubblicati su quella sorgente. Se la pubblicazione che sto valutando non è recente, l'IF non è un buon indicatore dell'impatto della stessa;
la distribuzione delle citazioni (recenti) per gli articoli (recenti) di una rivista tende a essere una distribuzione di Pareto, dunque una distribuzione asimmetrica con asimmetria positiva (molti articoli poco citati, pochi articoli molto citati). Per tali distribuzioni, la media è maggiore della mediana che è maggiore della moda. Ciò significa che la maggior parte degli articoli ricevono meno citazioni della media . Dunque la media calcolata dall'Impact Factor non è un buon indicatore di tipicità; meglio sarebbe la mediana calcolata su un periodo di tempo confrontabile con l'anno della pubblicazione.

E' evidentemente più preciso valutare l'effettivo impatto della pubblicazione, vale a dire il numero di citazioni ricevute dalla pubblicazione stessa, piuttosto che usare l'impatto della sorgente. L'unico caso in cui ha senso valutare un lavoro con l'impatto della sorgente è quando il il lavoro è molto recente e dunque non ha ancora potuto accumulare tutte le citazioni che dimostrano il suo valore. In questo caso, possiamo assumere che, nel breve periodo, quel lavoro sarà citato come l'IF quella sorgente.

Ulteriori strumenti di analisi della produttività sono lo studio della distribuzione degli articoli per anno, notando eventuali picchi o cali di produttività. In particolare, è possibile misurare l'eterogeneità dei dati usando l'indice di Gini.

Esistono inoltre alcuni indicatori bibliometrici legati alla produttività, quali:

il numero medio di articoli per anno, ottenuto dividendo il numero di lavori per l'età accademica del ricercatore, vale a dire il numero di anni passati a partire dalla pubblicazione del primo lavoro;
il numero di articoli per autore, ottenuto assegnando ad ogni articolo una frazione dell'unità proporzionale al numero di co-autori dell'articolo. Generalmente, scrivere un articolo con co-autori è più facile in quanto è possibile stabilire una divisione dei compiti tra gli autori. A tal proposito, anche il numero medio di autori per articolo è significativo.

Analisi dell'impatto

Questa analisi punta a misurare l'impatto della ricerca di uno studioso in termini del numero di citazioni ricevute dalle sue pubblicazioni. In questa fase si assumono le seguenti ipotesi fondamentali della bibliometria (i) i ricercatori che scoprono qualcosa pubblicano la scoperta e (ii) i ricercatori citano un lavoro per riconoscere il merito e testimoniare l'utilizzo dell'informazione contenuta nel lavoro riferito. Sotto tali ipotesi, il numero di citazioni ricevute da un lavoro è un indicatore dell'impatto che quel lavoro ha avuto nella comunità di riferimento. Si noti che un indicatore fornisce una tendenza, non una misura esatta.

Una prima analisi può essere condotta generando la distribuzione delle citazioni per anno. Anche in questo caso possiamo usare l'indice di Gini per misurare l'eterogeneità dei dati. Inoltre, è possibile visionare il diagramma che si ottiene ordinando gli articoli per numero di citazioni ricevute in senso decrescente e rappresentando ogni articolo con una riga di punti tanti quanti solo le citazioni ricevute dall'articolo è detto diagramma di Ferrers. Questo diagramma fornisce una indicazione visiva della variabilità delle citazioni distinguendo situazioni di scarsa variabilità (gli articoli sono citati mediamente lo stesso numero di volte) da quelle di grande variabilità (esistono articoli fortemente citati, blockbusters accanto ad articoli ignorati, ma che potrebbero rivelarsi sleeping beauties). Una indicazione numerica della variabilità delle citazioni si può ottenere calcolando il coefficiente di variazione oppure analizzando il diagramma di Lorenz e il relativo rapporto di concentrazione.

Gli indicatori bibliometrici per misurare l'impatto di un insieme di pubblicazioni (riferite ad un ricercatore) sono i seguenti:

citazioni: Il numero totale di citazioni;
citazioni per articolo: Il numero medio di citazioni per articolo;
citazioni per anno: Il numero di citazioni diviso per l'età accademica;
citazioni per autore: E ottenuto dividendo il numero di citazioni di ogni articolo per il numero di autori dell'articolo e sommando i risultati. In sostanza, le citazioni vengono distribuite in parti uguali per ogni co-autore. Questo permette di mitigare l'effetto co-autori, in base al quale un articolo con molti autori è più frequentemente citato (anche grazie alle autocitazioni);
indice h: Il più alto numero h di articoli ognuno dei quali ha ricevuto almeno h citazioni. Questo indice corrisponde alla dimensione del quadrato di Durfee sul diagramma di Ferrers. E' un indice facile da calcolare, difficile da scalare e da inflazionare con autocitazioni o errori della sorgente dati;
indice g: Il più alto numero g di articoli che hanno ricevuto assieme almeno g² citazioni. Rispetto all'indice h, questo indice non svantaggia gli autori con poche pubblicazioni fortemente citate;
indice di Jin: Il numero medio di citazioni ricevute dalle h pubblicazioni che determinano l'indice h (h core). Come per gli indici h e g, l'idea di questo indice è quella di valutare solo le pubblicazioni di maggior impatto del ricercatore; rispetto all'indice h, questo indice assegna agli articoli di maggior impatto un peso proporzionale al numero di citazioni ricevute;
indice m: Il valore di h diviso l'età accademica. Riduce lo svantaggio dei giovani ricercatori (con poche pubblicazioni) rispetto a quelli già avviati. Penalizza inoltre i ricercatori che hanno smesso di pubblicare e i cui lavori sono stati dimenticati;
indice h contemporaneo: Una versione dell'indice h ottenuta dando più peso agli articoli recenti. In particolare, le citazioni ad articoli pubblicati k anni fa sono pesate 4/(k+1). L'indice h viene calcolato come al solito sulle citazioni pesate. Nel calcolo della sequenza di pubblicazioni che determina il calcolo dell'indice h (h core), a parità di citazioni, gli articoli più recenti hanno priorità. Favorisce i ricercatori che sono ancora produttivi rispetto a quelli che hanno smesso di pubblicare;
indice h individuale: L'indice h diviso per il numero medio di autori delle h pubblicazioni che lo determinano. Attenua l'effetto co-autori. Nel calcolo della sequenza di pubblicazioni che determina il calcolo dell'indice h (h core), a parità di citazioni, gli articoli con meno autori hanno priorità.
scholar PageRank: E' un indice che considera non solo il numero di citazioni ma anche il prestigio dei citanti. Il PageRank di uno studioso è definito come la sommatoria delle citazioni ricevute dalle pubblicazioni del ricercatore pesate per il PageRank dei citanti. La definizione è ricorsiva e il calcolo del PageRank si può modellare come la ricerca della stato stabile di una catena di Markov oppure dell'autovalore dominante di una matrice di probabilità. Questo indice prende spunto dal famoso algoritmo PageRank che Google usa per fornire la lista dei risultati di una ricerca.

Talvolta è preferibile eliminare dal calcolo le autocitazioni. Interessante a tal proposito è anche il rapporto tra autocitazioni e citazioni totali. In WoS è possibile analizzare le citazioni escludendo le autocitazioni. Con GS invece questa operazione deve essere fatta manualmente.

Analisi dell'impatto relativo

Gli obiettivi di una analisi dell'impatto relativo possono essere i seguenti:

misurare l'impatto della ricerca relativamente al tema o al settore di ricerca in cui si opera; oppure
confrontare la ricerca di studiosi di settori differenti. Infatti, ricordiamo che settori differenti hanno diverse pratiche di citazione che influenzano notevolmente il numero medio di citazioni per articolo.

Supponiamo di voler valutare l'impatto relativo di una pubblicazione P pubblicata nell'anno Y nella sorgente J appartenente al settore di ricerca S. Possiamo procedere in due maniere:

Valutazione dell'impatto rispetto alle sorgenti della pubblicazione. Calcolo il numero medio (o mediano) di citazioni di tutti gli articoli pubblicati nell'anno Y nella sorgente J e posiziono rispetto a questo indice il numero di citazioni di P;
Valutazione dell'impatto rispetto al settore di ricerca. Calcolo il numero medio (o mediano) di citazioni di tutti gli articoli pubblicati nell'anno Y in tutte le sorgenti del settore di ricerca S e posiziono rispetto a questo indice il numero di citazioni di P .

La prima tecnica assume che l'area di ricerca della pubblicazione P sia ben rappresentata dalla sorgente J. Questa tecnica è poco dispendiosa (in termini di lavoro speso per il calcolo) ma favorisce chi pubblica lavori di un impatto superiore rispetto a quello della rispettiva sorgente. La seconda tecnica elimina questa preferenza ma è più laboriosa. Per alleggerire il lavoro, è possibile campionare le sorgenti del settore e svolgere l'analisi solo per il campione estratto. Facciamo un esempio. Consideriamo il seguente articolo:

Title: A FRAMEWORK FOR DEFINING LOGICS
Authors: HARPER R, HONSELL F, PLOTKIN G
Source: JOURNAL OF THE ACM   
Volume: 40   
Issue: 1   
Pages: 143-184   
Published: JAN 1993

Usando i dati di WoS ad oggi (29 Ottobre 2008), l'articolo in questione viene citato 151 volte. La media delle citazioni ricevute da articoli pubblicati nel 1993 in JOURNAL OF THE ACM è di 45, la mediana è 14 e il terzo quartile è 35. Dunque la pubblicazione è ben oltre la media e la mediana (in realtà, è la più citata). Questo calcolo è immediato usando gli strumenti offerti da WoS. Le categorie (subject categories) di WoS alle quali JOURNAL OF THE ACM appartiene sono: HARDWARE & ARCHITECTURE, INFORMATION SYSTEMS, SOFTWARE ENGINEERING e THEORY & METHODS tutte dell'area COMPUTER SCIENCE. Purtroppo WoS non permette di cercare direttamente tutti gli articoli in una determinata categoria ma consente di selezionare tutte le sorgenti di una o più categorie. E' quindi possibile selezionare solo un campione di sorgenti. Per ottenere un buon campione possiamo ordinare in WoS tutte le sorgenti per numero di citazioni e poi scegliere una sorgente ogni k partendo dalla testa. In questo modo, se n sono le sorgenti, otteniamo un campione di (parte superiore di) n/k sorgenti che ben rappresenta il settore in termini di numero di citazioni. E' quindi possibile usare la disgiunzione di tutte le sorgenti campionate in una interrogazione avanzata (advanced search) in WoS.

Infine, se l'obiettivo è semplicemente quello di ottenere un indicatore multi-disciplinare, un metodo più semplice ma anche meno preciso è quello di confrontare il numero di citazioni con l'IF della sorgente o del settore. Questo rapporto, a differenza dei precedenti, non è direttamente interpretabile, in quanto numeratore e denominatore si riferiscono in generale a periodi di tempo differenti. E' invece possibile usarlo per normalizzare il numero di citazioni rispetto a settori disciplinari differenti che sono caratterizzati da diversi IF. E' possibile calcolare agevolmente l'IF di una sorgente oppure di un intero settore usando i Journal Citation Reports messi a disposizione da Thomson Reuters. Ad esempio, l'IF 2007 della sorgente JOURNAL OF THE ACM è 3.14 (si noti che è ben inferiore alla media delle citazioni degli articoli del 1993). L'IF medio delle quattro categorie a cui la sorgente appartiene è 1.01 (dunque la sorgente ha un ottimo impatto rispetto ai settori di appartenenza).

Usando GS, il numero di citazioni ricevute dalla pubblicazione in questione è 958, più di 6 volte quelle trovate da WoS. Il numero medio di citazioni per articoli dello stesso anno nella medesima sorgente è 165, 3.6 volte il valore trovato su WoS. La mediana è 18 e il terzo quartile 61. Questi dati sono ottenibili facilmente usando GS e in particolare con l'ausilio del programma Publish or Perish che calcola diversi indicatori bibliometrici a partire dalle citazioni recuperate da GS. Anche in questo caso è evidente che l'articolo ha avuto un ottimo impatto relativo. Purtroppo GS non fornisce dati aggregati per settore di ricerca e non permette interrogazioni avanzate che cercano le pubblicazioni di più sorgenti (in realtà, è possibile fare ricerche avanzate con l'operatore di disgiunzione ma purtroppo il campo di ingresso ha una lunghezza limitata). Dunque ulteriori analisi per settore risultano più laboriose (occorre cioè cercare i dati sorgente per sorgente).