Introduzione

Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione.

Questo è un tool che costituisce una delle risorse principali di IRIS, perché garantisce una maggiore qualità dei dati raccolti nell'Archivio.

Il tool di deduplicazione individua prodotti simili all'interno dell'Archivio e attraverso operazioni mirate di merge consente di elevare la qualità dei dati. La deduplicazione agisce su due livelli: il primo livello riguarda il censimento dei prodotti fatto dagli utenti docenti e ricercatori, mentre il secondo più corposo è a disposizione degli amministratori dell'Archivio (o a un gruppo di persone preposte all'attività di deduplicazione) ed è il tool descritto in seguito.

Quali dati vengono controllati

Il tool di deduplicazione permette eliminare prodotti ridondanti in Archivio, individuandoli tra i prodotti già censiti o prevenendo l'inserimento di prodotti uguali. I metadati che vengono presi in considerazione al fine di determinare l'uguaglianza tra prodotti sono i seguenti:

Submission

In fase di censimento di un nuovo prodotto, quando sono inseriti i dati presi in considerazione per la deduplicazione (titolo, DOI, ISBN e PubMedID), il sistema effettua un controllo dei dati presenti in Archivio e se trova delle corrispondenze segnala che si sta inserendo un potenziale duplicato.



Attraverso il menu della colonna Azioni, l'utente che sta facendo la submission può decidere come operare. Le azioni possibili sono le seguenti


Il significato delle azioni possibili è spiegato nel seguito.

Crea duplicato

Il sistema ha correttamente individuato un prodotto in Archivio simile a quello che si sta inserendo (con lo stesso titolo, oppure DOI, ISBN, PubMedID).

L'utente che sta effettuando la submission vuole comunque creare un duplicato, quindi segnala al sistema la propria volontà cliccando sulla voce Crea duplicato.

A questo punto la form di segnalazione di potenziali duplicati scompare e il processo di submission continua normalmente.

Non è un duplicato

L'utente si accorge che il sistema sta segnalando un falso positivo, ovvero il prodotto che si sta censendo non è lo stesso trovato dal sistema in Archivio.

È possibile controllare il dettaglio del prodotto presente in Archivio (proposto come potenziale duplicato dal sistema) cliccando sulla citazione che compare nella form.



Se si ritiene che il prodotto che si sta inserendo non è un duplicato di quello proposto dal sistema, allora occorre cliccare sul tasto Non è un duplicato. A questo punto la form di segnalazione di potenziali duplicati scompare e il processo di submission continua normalmente.


 Quando si sceglie l'opzione Crea un duplicato o Non è un duplicato il sistema tiene traccia dell'azione compiuta per la gestione del tool di deduplicazione degli Amministratori descritto in seguito.

Autoriconoscimento

Questa opzione è attiva solo per i prodotti che si trovano nello stato definitivo e che nella stringa autori contengono almeno un autore non riconosciuto.

Se si ritiene di essere un autore non ancora riconosciuto del prodotto che il sistema propone come duplicato rispetto a quello che si sta censendo, si può effettuare direttamente l'autoriconoscimento come autore interno del prodotto. In questo caso si accede direttamente alla form di autoriconoscimento il cui funzionamento è descritto nella seguente guida.

Una volta terminato l'autoriconoscimento si accede direttamente al dettaglio del prodotto.

Cancella

Cliccando sul tasto Cancel si esce dalla submission del prodotto.

È possibile fare in modo che quando si clicca sul tasto Cancel si possa proseguire la submission. In questo caso fino a quando il prodotto si trova nello stato Provvisorio/Bozza alla riapertura dello stesso viene mostrato nuovamente il popoup di deduplicazione. Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing Customerportal.


Tool di deduplicazione

Questo tool è a disposizione degli amministratori dell'Archivio che operano in visione completa. Il tool è accessibile dal menu principale cliccando su Prodotti, Tool di manutenzione, Deduplicazione

E' possibile fare in modo che il tool di deduplicazione sia a disposizione di utenti che operano a livello Dipartimentale. In questo modo un utente che accede in visione Dipartimentale vede gli item in cui almeno un prodotto afferisce al proprio Dipartimento. Ulteriori dettagli nel capitolo VisioneDipartimentale.

Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.


Accedendo al tool si visualizza una form iniziale in cui vengono presentati tutti i prodotti in Archivio che il sistema ha individuato come potenziali duplicati suddivisi secondo il metadato su cui è stata trovata la duplicazione.

Form di ricerca

Dopo aver deciso su che raggruppamento di dati lavorare, si accede al tool vero e proprio che si presenta come una form di ricerca e una tabella che mostra i risultati. Al caricamento della pagina vengono mostrati tutti i possibili elementi duplicati presenti in Archivio per il raggruppamento scelto.

La form di ricerca è composta da due tab. Il primo è intitolato Tutti, perché prende in considerazione tutti i possibili duplicati presenti in Archivio. Il secondo si intitola Cerca per ID e permette di cercare specifici item per effettuarne il confronto.

Tab Cerca per ID

Cliccando su questo tab si accede alla form di ricerca diretta per identificativo. In questo modo è possibile confrontare dei prodotti che non sono considerati potenziali duplicati dal sistema.



Per utilizzare questa form occorre inserire gli identificativi di due o più prodotti all'interno della form separati da una virgola (,) e quindi cliccare su Confronta. In questo modo si accede alla form di confronto di prodotti.

Tab Tutti


 Ulteriori dettagli sull'utilizzo di questi valori sono forniti nei capitoli successivi, per cui si consiglia una lettura completa della presente guida.


I campi di ricerca della scheda Tutti hanno il seguente significato:


Il valore preimpostato corrisponde alla scelta fatta inizialmente sul raggruppamento su cui operare. È comunque possibile scegliere un altro valore senza tornare alla pagina iniziale.


I valori WOS e SCOPUS sono disponibili all'interno del filtro Ricerca per solo per gli Atenei che hanno effettuato la sottoscrizione del servizio premium con i rispettivi editori (Elsevier e Clarivate Analytics).


Tabella dei risultati

Quando si accede ad un raggruppamento del tool di deduplicazione, o dopo aver effettuato una ricerca attraverso la form, vengono visualizzati i gruppi di potenziali prodotti duplicati presenti in archivio. Ciascun gruppo può essere composto da due o più item. Per facilitare gli utenti nell'attività di deduplicazione è stata introdotta una preview rispetto agli identificati esterni dei prodotti. Per identificativi esterni si intendono gli identificativi bibliografici dei prodotti. All'interno di questo tool sono considerati i seguenti identificativi bibliografici:


A seconda di quanti identificativi esterni hanno in comune i prodotti di un gruppo di duplicati, viene attribuito uno sfondo. Il colore dello sfondo ha il seguente significato:





Significato dei risultati mostrati

I risultati ottenuti dalla ricerca di potenziali duplicati sono raggruppati secondo il metadato su cui è stata individuata la duplicazione.

Intestazione

Per ciascun gruppo questa informazione è visualizzata nell'intestazione che indica il valore del metadato per cui il gruppo di item risultano duplicati (titolo, DOI, ISBN e PubMedID) e il numero di item che appartengono al gruppo.

Dettaglio prodotto

Per ciascun item appartenente al gruppo di duplicati sono visualizzate le informazioni principali. Cliccando sull'identificativo interno del prodotto (Item ID) si accede al dettaglio del prodotto.



Azioni

Infine, è presente un pannello di azioni composto dai seguenti bottoni:

Non sono duplicati: Se si è in presenza di un falso positivo, cliccando su questo bottone i prodotti vengono esclusi dal tool di deduplicazione;

Confronta: permette di accedere alla form di confronto di prodotti;

Target: permette di selezionare il target del confronto, ovvero quale prodotto sarà tenuto ed eventualmente integrato con i metadati del prodotto scartato;

Elimina: Permette di eliminare direttamente il prodotto. Questa azione è permanente ed ha lo stesso impatto del bottone Elimina presente nel backoffice dei prodotti;

Seleziona tutti: In presenza di un gruppo di duplicati maggiore di due item, permette di selezionare tutti gli item proposti;

Deseleziona tutti: In presenza di un gruppo di duplicati maggiore di due item, permette di deselezionare tutti gli item proposti;

Gruppi di 3 o più prodotti – scelta del target

Nel caso il sistema abbia rilevato una possibile duplicazione su un gruppo di tre o più prodotti, la scelta del target viene vincolata ai prodotti che si decide di confrontare.

In particolare, a fianco di ciascun prodotto del gruppo compare una checkbox che permette di selezionare il prodotto per il confronto.

Dopo aver selezionato due o più prodotti, se si clicca su "Non sono duplicati" il sistema continua a mostrarli, ma tiene traccia della scelta effettuata valorizzando a 1 la colonna delle operazioni effettuate.



Se ad esempio si selezionano il primo e il terzo prodotto, si sceglie come target il terzo e si clicca su Non sono duplicati, il sistema tiene traccia dell'opzione eseguita impostando a 1 il valore delle operazioni eseguite per quei due prodotti




Se si selezionano nuovamente quei due prodotti e se ne sceglie uno come target, il sistema ci avverte che i due sono già stati valutati come non duplicati.



Cliccando sull'icona delle operazioni eseguite di uno dei due, viene visualizzata una form che indica il dettaglio dell'operazione eseguita.

In questo caso, cliccando sul bottone operazioni eseguite per il prodotto 67890, la form riporta che in data il prodotto è stato confrontato con il prodotto 12345 dall'utente Amministratore.



Cliccando su Annulla Target, si può annullare la selezione corrente e procedere con una nuova.


Visione Dipartimentale

Premessa: Le afferenze dei prodotti rispecchiano le afferenze degli autori interni riconosciuti. Se un prodotto ha due autori interni e il primo autore afferisce al Dipartimento di Chimica e il secondo al Dipartimento di Fisica, allora il prodotto appartiene a entrambi i Dipartimenti.

Nel caso in cui vi siano degli utenti preposti alla deduplicazione che operano in Visione Dipartimentale, occorre tenere presente che questi potranno operare solo sui prodotti che si riferiscono al proprio Dipartimento. Se in un gruppo di prodotti da confrontare è presente un prodotto che non ha alcun autore interno afferente al Dipartimento dell'utente che sta operando in Visione Dipartimentale, allora il sistema inibisce il confronto inserendo un messaggio nell'intestazione del gruppo.

Gli amministratori dell'Archivio possono modificare il testo del messaggio attraverso il tool di gestione delle etichette utilizzando come chiave jsp.tools.deduplicate.disable.merge.department.authority. Ulteriori dettagli sono presenti nella guida Gestione etichette




Il confronto del gruppo di prodotti potrà essere fatto dall'amministratore dell'Archivio operando in visione completa.

Confronto di prodotti

Dopo aver selezionato due o più potenziali duplicati, cliccando sul tasto Confronta si accede alla form di deuplicazione vera e propria. Come esempio prenderemo in considerazione due prodotti duplicati sul titolo. Il prodotto 67890 verrà scelto come target.



La form è composta da una parte iniziale in cui sono presentati i dati principali dei prodotti che si sta confrontando, una pulsantiera per eseguire le varie azioni e una form che permette di confrontare ciascun metadato dei prodotti che si sta confrontando, al fine di valutare le differenze e decidere quale tenere o quale scartare.

Riepilogo prodotti da confrontare

La form di confronto dei prodotti ha una parte iniziale in cui vengono mostrati i dati principali dei prodotti su cui si sta lavorando.
Il primo prodotto è quello scelto come target. È contraddistinto dall'identificativo colorato di azzurro.
Gli altri prodotti (nel nostro caso solo uno) sono quelli che verranno eliminati al termine del confronto e sono contraddistinti dall'identificativo di colore grigio.


Pulsanti

Sotto al riepilogo dei prodotti su cui si sta lavorando, compare la pulsantiera.



I pulsanti servono per eseguire le seguenti azioni:

Confronto metadati

In questa sezione i metadati di ciascun prodotto sono raggruppati e messi a confronto. Per ciascun metadato viene riportato il valore, quale prodotto lo possiede e le eventuali differenze.



Nell'immagine di esempio, nell'intestazione vengono riportate l'etichetta e il metadato che si sta analizzando. Nel nostro caso l'etichetta è "Titolo", mentre il metadato è dc.title.

Nella prima riga viene mostrato il valore del prodotto target. Nel nostro caso il prodotto è il 67890 e il valore del metadato è "Prova tool di deduplicazione". Essendo il prodotto target, questo è il valore che viene scelto di default come valore del prodotto finale e per questo motivo è evidenziato in verde e al suo fianco ha l'icona di una spunta verde.

Nella seconda riga viene mostrato il valore del prodotto da scartare. Nel nostro caso il prodotto è il 12345 e il valore del metadato è "Prova del tool di deduplicazione". Il valore del prodotto da scartare è evidenziato in rosso e al suo fianco ha l'icona di un divieto rosso.

A fianco dell'intestazione ci sono due pulsanti che permettono di eseguire le seguenti azioni:

Mostra differenze

Cliccando sul pulsante mostra differenze, viene visualizzata una form che dettaglia le differenze presenti nel valore del metadato.



Nella prima riga viene riportato il valore del metadato del prodotto da scartare, contraddistinto dal colore rosso.

Nella seconda riga viene mostrato il valore del metadato del prodotto scelto come target, contraddistinto dal colore verde.

Infine viene mostrato il valore evidenziando la differenza tra i due prodotti.

Scelta del metadato

Se ci si trova di fronte a un metadato con valori differenti, come nel caso precedente, il sistema propone come valore di default (cioè che sarà applicato al prodotto finale) quello del prodotto target. È comunque possibile scegliere l'altro valore. Per farlo basta cliccare sul valore desiderato che verrà scambiato con quello di default.



Metadato con lo stesso valore in entrambi i prodotti

Quando un metadato ha lo stesso valore viene mostrato il valore con gli identificativi di entrambi i prodotti posti sulla stessa riga. Nel nostro caso il metadato dc.date.issued ha per entrambi i prodotti il valore 2018. In questo caso il pulsante Mostra differenze non compare ed è presente solo il pulsante Elimina.



Messaggistica

Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite, sia in fase di submission che attraverso l'interfaccia amministrativa.

Submission

Quando si sceglie l'opzione Crea duplicato dalla form che compare durante il censimento di un prodotto, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE

Interfaccia Amministrativa

Quando viene effettuato il merge attraverso il tool di deduplicazione a disposizione degli amministratori, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_MERGED_ITEM

Configurazioni possibili

La configurazione di default del tool di deduplicazione prevede che l'invio delle notifiche sia attivo per la creazione duplicato in fase di submission (MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE) e per l'avvenuta fusione attraverso l'interfaccia amministrativa (MAIL.TEMPLATE.DEDUP_MERGED_ITEM). Entrambe le mail sono spedite sia al responsabile del dato che agli autori interni del prodotto risultato dalla fusione.

È possibile applicare le seguenti configurazioni al sistema di messaggistica del tool di deduplicazione:


Ogni modifica deve essere fatta facendo pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.



Mail personalizzata a tutti gli autori interni riconosciuti

È possible attivare una configurazione che permette di visualizzare un ulteriore bottone all'interno del gruppo di azioni per consentire l'invio di mail personalizzate a tutti gli autori interni riconosciuti dei prodotti.



Per attivare questa configurazione occorre fare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.


Cliccando su questo tasto viene generata una mail gestita dal client di posta impostato nel browser. La mail ha come destinatari tutti gli autori interni riconosciuti di tutti i prodotti del gruppo di potenziali duplicati.

L'oggetto della mail è Potenziali duplicati

Il testo è il seguente

Abbiamo rilevato un potenziale duplicato


- [Item ID Prodotto 1]:[Titolo prodotto 1] 
- [Item ID Prodotto 2]:[Titolo prodotto 2] 
- [Item ID Prodotto n]:[Titolo prodotto n] 
E' pregato di contattare il suo segretario di dipartimento e comunicargli se la pubblicazione è la stessa oppure è diversa.

Utente: [nome, cognome utente deduplicazione]
Email: [email utente deduplicazione]
utente deduplicazione è l'utente che sta utilizzando il tool di deduplicazione


Essendo questa mail gestita dal client di posta di ciascun utente è possibile modificare il testo o l'oggetto a proprio piacimento prima di procedere all'invio.

Tuttavia è possibile modificare il testo di default utilizzando il tool di gestione delle etichette. Le chiavi da utilizzare e i relativi valori di default sono i seguenti:


jsp.layout.submit.checkduplicate.email.subject = Potenziali%20duplicati
jsp.layout.submit.checkduplicate.email.bodyPart1 = Abbiamo%20rilevato%20un%20potenziale%20duplicato%0A%0A
jsp.layout.submit.checkduplicate.email.bodyPart2 =  E%27%20pregato%20di%20contattare%20il%20suo%20segretario%20di%20dipartimento%20e%20comunicargli%20se%20la%20pubblicazione%20è%20la%20stessa%20oppure%20è%20diversa%2E
jsp.layout.submit.checkduplicate.email.userFullname = Utente:
jsp.layout.submit.checkduplicate.email.userEmail = Email: