Introduzione

Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione. Questo è un tool fondamentale di IRIS che costituisce una delle risorse principali dell'assestment di IRIS perché garantisce una maggiore qualità dei dati raccolti nell'Archivio.
Il tool di deuplicazione individua prodotti simili all'interno dell'Archivio e attraverso operazioni mirate di marge consente di elevare la qualità dei dati. La deduplicazione agisce su due livelli. Il primo riguarda il censimento dei prodotti fatto dagli utenti semplice. Il secondo è quelli più corposo, è a disposizione degli amministratori dell'Archivio (o a un gruppo di persone preposte all'attività di deduplicazione) ed è il tool descritto in seguito.

Quali dati vengono controllati

Il tool di deuplicazione permette eliminare prodotti ridondanti in Archivio, individuandoli tra i prodotti gia censiti o prevenendo l'inserimento di prodotti uguali. I metadati che vengono presi in considerazione al fine di determinare l'uguaglianza tra prodotti sono i seguenti:

Submission

In fase di censimento di un nuovo prodotto, quando sono inseriti i dati presi in considerazione per la deduplicazione (titolo, DOI, ISBN e PubMedID), il sistema effettua un controllo dei dati presenti in Archivio e se trova delle corrispondenze segnala che si sta inserendo un potenziale duplicato.



Attraverso il menu della colonna Azioni, l'utente che sta facendo la submission può decidere come operare. Le azioni possibili sono le seguenti


Il significato delle azioni possibili è il seguente

Crea duplciato

Il sistema ha correttamente individuato un prodotto in Archivio simile a quello che si sta censendo (con lo stesso titolo, oppure DOI, ISBN, PubMedID). L'utente che sta effettuando a submission vuole comunque creare un duplicato, quindi segnala al sistema la propria volontà cliccando sulla voce Crea duplicato. A questo punto la form di segnalazione di potenziali duplicati scompare e il processo di submission continua normalmente

Non è un duplicato

L'utente si accorge che il sistema sta segnalando un falso positivo, ovvero il prodotto che si sta censendo non è lo stesso trovato dal sistema in Archivio. E' possibile controllare il dettaglio del prodotto presente in Archivio (proposto come potenziale duplicato dal sistema) cliccando sulla citazione che compare nella form.



Se si ritiene che il prodotto che si sta censendo non è un duplicato di quello proposto dal sistema, allora occorre cliccare sul tasto Non è un duplicato. A questo punto la form di segnalazione di potenziali duplicati scompare e il processo di submission continua normalmente.

Autoriconoscimento

Questa opzione è attiva solo per i prodotti che si trovano nello stato definitivo e che nella stringa autori contengono almeno un autore non riconosciuto. Se si ritiene di essere un autore non ancora riconosciuto del prodotto che il sistema propone come duplicato rispetto a quello che si sta censendo, si può effettuare direttamente l'autoriconoscimento come autore interno del prodotto. In questo caso si accede direttamente alla form di autoriconoscimento il cui funzionamento è descritto nella seguente guida. Una volta terminato l'autoriconoscimento si accede direttamente al dettaglio del prodotto.

Cancella

Cliccando sul tasto Cancel si esce dalla submission del prodotto, vedi xxx.

 Quando si sceglie l'opzione Crea un duplicato o Non è un duplicato il sistema tiene traccia dell'azione compiuta per la gestione del tool di deuplicazione degli Amministratori descritto in seguito.

Tool di deudplicazione

Questo tool è a disposizione degli amministratori dell'Archivio che operano in visione completa. Il tool è accessibile dal menu principale cliccando su Prodotti, Tool di manutenzione, Deduplicazione. Il tool si presenta come una form di ricerca e una tabella che mostra i risultati. Al caricamento della pagina vengono mostrati tutti i possibili elementi duplicati presenti in Archivio.

Form di ricerca

La form di ricerca è composta da due tab. il primo è intitolato Tutti, nel senso che prende in considerazione tutti i possibili duplicati presenti in Archivio. Il secondo si Intitola Cerca per ID e permette di cercare determinati item per il confronto.

Tab Cerca per ID

Cliccando su questo tab si accede alla form di ricerca diretta per identificativo. In questo modo è possibile confrontare dei prodotti che non sono considerati potenziali duplicati dal sistema.



Per utilizzare questa form occorre inserire gli indentificativi di due o più prodotti all'interno della form separati da una virgola (,) e quindi cliccare su Confronta. In questo modo si accede alla form di confronto di prodotti, vedi xxx.

Tab Tutti

 


I campi di ricerca tel tab Tutti hanno il seguente significato:

 Ulteriori dettagli sull'utilizzo di questi valori sono forniti nei capitoli successivi, per cui si consiglia una lettura completa della presente guida.

Tabella dei risultati

Quando si accede al tool di deuplicazione, o dopo aver effettuato una ricerca attraverso la form, vengono visualizzati i gruppi di potenziali prodotti duplicati presenti in archivio. Ciascun gruppo può essere composto da due o più item.


 

Significato dei risultati mostrati

I risultati ottenuti dalla ricerca di potenziali duplicati sono raggruppato secondo il metadato su cui è stata individuata la duplicazione.

Intestazione

Per ciascun gruppo questa informazione è visualizzata nell'intestazione che indica il valore metadato per cui il gruppo di item risultano duplicati (titolo, DOI, ISBN e PubMedID) e il numero di item che appartengono al gruppo.

Dettaglio prodotto

Per ciascun item appartenente al gruppo di duplicati sono visualizzate le informazioni principali. Cliccando sull'identificativo interno del prodotto (Item ID) si accede al dettaglio del prodotto.


 

Azioni

Infine, è presente un pannello di azioni composto dai seguenti bottoni:
Non sono duplicati: Se si è in presenza di un falso positivo, cliccando su questo bottone i prodotti vengono esclusi dal tool di deduplicazione;
Confronta: permette di accedere alla fom di confronto di prodotti;
Target: permette di selezionare il target del confronto, ovvero quale prodotto sarà tenuto ed eventualmente integrato con i metadati del prodotto scartato;
Elimina: Permette di eliminare direttamente il prodotto. Questa azione è permanente e ha lo stesso impatto del bottone Elimina presente nel backoffice dei prodotti.

Gruppi di 3 o più prodotti – scelta del target

Nel caso il sistema abbia rilevato una possibile duplicazione su un gruppo di 3 o più prodotti, la scelta del target viene vincolata ai prodotti che si decide di confrontare.
In particolare, a fianco di ciascun prodotto del gruppo compare una checkbox che permette di selezionare il prodotto per il confronto. Dopo aver selezionato due o più prodotti, se si clicca su Non sono duplicati il sistema continua a mostrarli, ma tiene traccia della scelta effettuata valorizzando a 1 la colonna delle operazioni effettuate.



Se ad esempio si selezionano il primo e il terzo prodotto, si sceglie come target il terzo e si clicca su Non sono duplicati, il sistema tiene traccia dell'opzione eseguita impostando a 1 il valore delle operazioni eseguite per quei due prodotti




Se si selezionano nuovamente quei due prodotti e se ne sceglie uno come target, il sistema ci avverte che i due sono già stati valutati come non duplicati.



Cliccando sull'icona delle operazioni eseguite di uno dei due, viene visualizzata una form che indica il dettaglio dell'operazione eseguita. In questo caso, cliccando sul bottone operazioni eseguite per il prodotto 67890, la form riporta che in data il prodotto è stato confrontato con il prodotto 12345 dall'utente Amministratore.



Cliccando su Annulla Target, si può annullare la selezione corrente e procedere con una nuova.

Confronto di prodotti

Dopo aver selezionato due o più potenziali duplicati, cliccando sul tasto Confronta si accede alla form di deuplicazione vera e propria. Come esempio prenderemo in considerazione due prodotti duplicati sul titolo. Il prodotto 67890 verrà scelto come target.



La form è composta da una parte iniziale in cui sono presentiati i dati principali dei prodotti che si sta confrontando, una pulsantiera per eseguire le varie azioni e una form che permette di confrontare ciascun metadato dei prodotti che si sta confrontando al fine di valutare le differenze e decidere quale tenere o quale scartare.

Riepilogo prodotti da confrontare

La form di confronto dei prodotti ha una parte iniziale in cui vengono mostrati i dati principali dei prodotti su cui si sta lavorando.
Il primo prodotto è quello scelto come target. E' contraddistinto dall'identificativo colorato di azzurro.
Gli altri prodotti (nel nostro caso solo uno) è quello che verrà eliminato al termine del confronto ed è contraddistinto dall'identificativo di colore grigio.

 

Pulsanti

Sotto al riepilogo dei prodotti su cui si sta lavorando, compare la pulsantiera.



I pulsanti servono per eseguire le seguenti azioni:

Confronto metadati

In questa sezione i metadati di ciascun prodotto sono raggruppati e messi a confronto. Per ciascun metadato viene riportato il valore, quale prodotto lo possiede e le eventuali differenze.



Nell'immagine di esempio, nell'intestazione vengono riportate l'etichetta e il metadato che si stanno confrontando. Nel nostro caso l'etichetta è "Titolo", mentre il metadato è dc.title.
Nella prima riga viene mostrato il valore del prodotto target. Nel nostro caso il prodotto è il 67890 e il valore del metadato è "Prova tool di deduplicazione". Essendo il prodotto target, questo è il valore che viene scelto di default come valore del prodotto finale e per questo motivo è evidenziato in verde e al suo fianco ha l'icona di una spunta verde.
Nella seconda riga viene mostrato il valore del prodotto da scartare. Nel nostro caso il prodotto è il 12345 e il valore del metadato è "Prova del tool di deduplicazione". Il valore del prodotto da scartare è evidenziato in rosso e al suo fianco ha l'icona di un divieto rosso.
A fianco dell'intestazione ci sono due pulsanti che permettono di eseguire le seguenti azioni:

Mostra differenze

Cliccando sul pulsante mostra differenze, viene visualizzata una form che dettaglia le differenze presenti nel valore del metadato.



Nella prima riga viene riportato il valore del metadato del prodotto da scartare, contraddistinto dal colore rosso.
Nella seconda riga viene mostrato il valore del metadato del prodotto scelto come trget, contraddistinto dal colore verde.
Infine viene mostrato il valore evidenziando la differenza tra i due prodotti.

Scelta del metadato

Se ci si trova di fronte a un metadato con valori differenti, come nel caso precedente, il sistema propone come valore di default (cioè che sarà applicato al prodotto finale) quello del prodotto target. È comunque possibile scegliere l'altro valore. Per farlo basta cliccare sul valore desiderato che verrà scambiato con quello di default.


 

Metadato con lo stesso valore in entrambi i prodotti

Quando un metadato ha lo stesso valore viene mostrato il valore con gli identificativi di entrambi i prodotti posti sulla stessa riga. Nel nostro caso il metadato dc.date.issued ha per entrambi i prodotti il valore 2018. In questo caso il pulsante Mostra differenze non compare ed è presente solo il pulsante elimina.


 

Messaggistica

Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite. Di seguito riportiamo l'elenco delle mail di notifica coinvolte nel tool.
Ulteriori dettagli sono presenti nella guida xxx
IR_DEDUPLICATION_NOTIFY_CREATE_DUPLICATE=true
IR_DEDUPLICATION_NOTIFY_CREATE_DUPLICATE_SUBMITTER=true
IR_DEDUPLICATION_NOTIFY_CREATE_DUPLICATE_COAUTHORS=true
IR_DEDUPLICATION_NOTIFY_CREATE_DUPLICATE_MAIL = //null//
IR_DEDUPLICATION_NOTIFY_DEDUPLICATION=true