Introduzione

Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione che fa parte del set di funzionalità rese disponibili all'utente per migliorare e garantire uno standard elevato della qualità dell'Archivio. Il controllo di potenziali pubblicazioni doppie, oltre a interessare la fase di censimento dei prodotti da parte dei docenti/ricercatori (come descritto nella pagina Controllo duplicati in submission (DA FARE), può essere svolto anche attraverso un tool messo a disposizione degli utenti amministratori dell'Archivio che operano in 'visione completa' (o gruppo di utenti designati a tale incarico); a questo tool è dedicata la corrente sezione del manuale.

Per individuare potenziali duplicati, il sistema confronta i valori dei seguenti metadati: Titolo, DOI, ISBN, PubMedID, Wos e Scopus. L’algoritmo di confronto si basa sull’uguaglianza del contenuto di questi campi, pertanto allo stesso Titolo, o allo stesso codice DOI, o ISBN, o PubMedID, o Wos, o Scopus possono corrispondere più pubblicazioni.


E' possibile fare in modo che il tool di deduplicazione sia accessibile anche agli utenti che operano a livello Dipartimentale (visione dipartimentale). Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing Customer Portal.

Accedendo al tool si visualizza la pagina riepilogativa iniziale in cui vengono presentati tutti i prodotti in Archivio che il sistema ha individuato come potenziali duplicati. Il raggruppamento viene fatto per stato del prodotto e tipo di metadato su cui è stata riscontrata la somiglianza del dato.

Di seguito i dettagli sul contenuto delle colonne presenti nella tabella riepilogativa

Al click sul contatore numerico, del raggruppamento di interesse, si accede alla pagina di ricerca in cui sono esposti i dati.  La pagina è composta da due schede: 'Tutti' in cui sono elencati tutti i possibili duplicati presenti in Archivio,  e 'Cerca per ID' in cui è possibile avviare una ricerca mirata per prodotto.

Scheda 'Tutti'

Il titolo della scheda indica all'utente in quale gruppo di ricerca si trova in quel momento, es. 'Records duplicati per DOI', 'Records duplicati per ISBN', ecc.  Al di sotto del titolo sono presenti i filtri per permettere all'utente di raffinare la ricerca secondo i criteri impostati, alcuni di essi si presentano prevalorizzati.

Di seguito i dettagli dei campi presenti 


  • Il filtro 'Escludi dal titolo parole comuni' di default è configurato per escludere le parole 'Introduzione' o 'Prefazione'. È possibile modificare la lista di parole da escludere a seconda delle esigenze dell'Ateneo. Per farlo occorre far pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.
  • Nel filtro 'Ricerca per' le scelte WOS e SCOPUS sono accessibili solo agli Atenei che hanno sottoscritto il servizio premium con i rispettivi editori (Elsevier e Clarivate Analytics). Nel prospetto riepilogativo, presente nella prima pagina di accesso al tool, i contatori presenti in corrispondenza dei due raggruppamenti sarà '0' (zero)

Tab Cerca per ID

Se si ha la necessità di mettere a confronto delle pubblicazioni che non sono state considerare come potenziali duplicati dal sistema di deduplicazione, e quindi non presenti nella scheda 'Tutti', è necessario accedere alla scheda ' Cerca per ID' e avviare la ricerca puntuale delle pubblicazioni di interesse. Nel campo di ricerca occorre inserire gli identificativi ID di due o più pubblicazioni (es. dfa8b9cf-d0d5-748b-e053-3c05fe0a3c96 ) separati dalla virgola e cliccare 'Confronta'


Dettagli Gruppi pubblicazioni

In entrambe le schede 'Tutti' e 'Cerca per ID', le pubblicazioni riconosciute come potenziali duplicati vanno a formare gruppi costituiti da due o più prodotti che hanno in comune il metadato su cui è stata rilevata la corrispondenza. Per facilitare gli utenti nell'attività di deduplicazione, sono esposti per ogni singola pubblicazione del gruppo i dati degli identificativi esterni associati alla stessa (DOI, ISI, Scopus e PubMed) .

Lo sfondo di ogni gruppo è colorato e può essere verde, giallo, azzurro oppure grigio. La differente colorazione sta ad indicare all'utente quanti identificativi esterni hanno in comune le pubblicazioni di un gruppo: 

Le logiche descritte sopra si applicano solo a gruppi di due pubblicazioni, per i gruppi con più due pubblicazioni lo sfondo è bianco. Anche le azioni a disposizione dell'utente per la gestione dei duplicati dipendono dalla composizione numerica del gruppo che si possono distinguere in:

Nell'immagine che segue un esempio di gruppo costituito da due pubblicazioni

Nell'immagine che seguire un esempio di gruppo costituito da più di 2 pubblicazioni

Di seguito i dettagli delle informazioni e azioni presenti nei gruppi: 

  1. 'Intestazione del gruppo': è esposto il metadato rilevato dal sistema come comune a più pubblicazioni, e che ha determinato il raggruppamento (nell'immagine sopra si tratta del tipo di metadato 'titolo').
  2. 'Check' di selezione: serve a definire quale delle pubblicazioni nel gruppo è da considerarsi come 'target' e quindi mantenuta all'interno dell'archivio, e sulla quale verranno conservate eventuali modifiche durante il confronto e la fusione. Vedremo in seguito come vengono gestite le pubblicazioni definite 'target').
  3. 'Azioni': appena sotto l'intestazione sono esposte le diverse azioni permesse sul gruppo di pubblicazioni  
    1. 'Non sono duplicati' -  in presenza di un falso positivo, cliccando il bottone i prodotti vengono esclusi dal tool di deduplicazione;
    2. 'Confronta' - permette di accedere alla pagina di confronto dei dati presenti nelle pubblicazioni. 
    3. 'Target' - serve a definire quale tra i prodotti presenti nel gruppo dovrà essere conservato all'interno dell'archivio ed eventualmente integrato con i metadati del prodotto scartato.
    4. 'Seleziona tutti' - il pulsante è presente solo nei gruppi con più di due pubblicazioni, e consente di effettuare una selezione multipla di tutti i prodotti proposti. Dopo averlo cliccato, per selezionare i prodotti presenti, lascia il posto al pulsante 'Deseleziona tutti' (con funzione opposta).
    5. 'Annulla Target' - disponibile solo per gruppi con più di 2 pubblicazioni.
    6. 'Notifica autori' - esegue l'invio di una e-mail a submitter e coautori per segnalare il potenziale duplicato. La presenza di questo pulsante è soggetta a configurazioni
  4. Set di dati della pubblicazione: sono presenti diversi dati che appartengono alla pubblicazione: titolo, tipologia, id della pubblicazione (link che permette di accedere al dettaglio della pubblicazione), handle (se lo stato diverso da bozza), stato della pubblicazione, Responsabile del dato e Dipartimento di afferenza.
  5. 'Elimina': esegue la cancellazione della pubblicazione; tale azione ha lo stesso impatto del bottone 'Elimina' presente nel backoffice dei prodotti;
  6. Icona 'Pubblicazioni già confrontate' a forma di 'ingranaggio' : vengono tracciati quanti e quali confronti hanno interessato la pubblicazione; si tratta delle operazioni di verifica (confronto) fatte dall'amministratore attraverso il tool. Al click sul contatore numerico si apre una modale in cui sono esposte le informazioni sulle pubblicazioni confrontate.

Gestione Gruppi con 3 o più pubblicazioni

Per gruppi composti da tre o più prodotti la scelta della pubblicazione 'target' deve essere fatta tra i prodotti scelti per il confronto. La selezione dei prodotti da confrontare avviene attraverso l'inserimento della spunta sul check di selezione presente a sinistra del prodotto (come da immagine)


In questa sezione verranno affrontati i casi d'uso che interessano la gestione di gruppi con più di 2 pubblicazioni.

REGOLA DA APPLICARE - E' bene esplicitare la regola che governa la gestione dei gruppi così costituiti:

"La comparazione deve essere fatta tra tutti i prodotti che compongono il gruppo, ad esempio: dato un gruppo formato da tre pubblicazioni simili, che definiamo A, B e C. Dove A e B sono stati già etichettati come 'non duplicati', ma nessun confronto è stato fatto tra A e C, B e C. In questo caso il sistema dovrà riproporre nel tool il gruppo delle pubblicazioni fino a quando non saranno esaurite tutte le comparazioni possibili (quindi A/C e B/C)".

1-Caso d'usoL'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e li contrassegna come 'Non sono duplicati'.

Per le pubblicazioni analizzate, il sistema traccia nella colonna 'pubblicazioni già confrontate' (a forma di ingranaggio) l'operazione eseguita (il contatore numerico viene incrementato di uno). Le pubblicazioni continuano a far parte del gruppo di potenziali duplicati fino a quando tutti i possibili confronti non sono stati eseguiti (come da regola illustrata sopra).

Esempio di dettaglio di un gruppo di pubblicazioni con operazioni di confronto eseguite.


Esempio modale che si apre cliccando il link numerico nella colonna 'Pubblicazioni già confrontate'


2-Caso d'usoL'utente seleziona tutti i prodotti presenti nel gruppo e li contrassegna come 'Non sono duplicati'. 

In questo scenario il sistema etichetta tutte le pubblicazioni del gruppo come 'non duplicate' e non saranno più riproposte nel tool, poiché tutti i possibili confronti sono stati eseguiti con la selezione massiva dei prodotti presenti nel gruppo.

3-Caso d'usoL'utente seleziona tutti i prodotti presenti nel gruppo ed esegue 'Confronta' (DA FARE)

4-Caso d'uso:  L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) ed esegue 'Confronta' (DA FARE)

Gestione Gruppi con 2 pubblicazioni

La gestione dei gruppi con due pubblicazioni segnalate come potenziali duplicati segue una procedura sicuramente meno complessa di quella prevista per la gestione dei gruppi con più di due pubblicazioni. Le azioni possibili per questi gruppi sono:

Confronta prodotti

La pagina che si apre cliccando l'azione 'Confronta' è la stessa per tutti i gruppi di prodotti. La pagina è strutturata in tre sezioni:

Sezione di riepilogo dei dati principali



Dopo aver selezionato due o più potenziali duplicati, cliccando sul tasto Confronta si accede alla form di deuplicazione vera e propria. Come esempio prenderemo in considerazione due prodotti duplicati sul titolo. Il prodotto 67890 verrà scelto come target.



La form è composta da una parte iniziale in cui sono presentati i dati principali dei prodotti che si sta confrontando, una pulsantiera per eseguire le varie azioni e una form che permette di confrontare ciascun metadato dei prodotti che si sta confrontando, al fine di valutare le differenze e decidere quale tenere o quale scartare.

Riepilogo prodotti da confrontare

La form di confronto dei prodotti ha una parte iniziale in cui vengono mostrati i dati principali dei prodotti su cui si sta lavorando.
Il primo prodotto è quello scelto come target. È contraddistinto dall'identificativo colorato di azzurro.
Gli altri prodotti (nel nostro caso solo uno) sono quelli che verranno eliminati al termine del confronto e sono contraddistinti dall'identificativo di colore grigio.


Prodotti riaperti

Un caso particolare è rappresentato dal confronto di prodotti di cui almeno uno è in stato Riaperto.

Quando un prodotto viene riaperto, viene creata una snapshot, ossia una copia temporanea. Questa copia rimane attiva fino a quando non viene terminata la sua modifica (cioè non si è concluso nuovamente il censimento del prodotto). In questi casi compare un messaggio che avverte che si sta operando su prodotti riaperti.



Quando si confrontano due prodotti e viene scelto come target il prodotto che NON si trova in stato riaperto, al termine della fusione verrà cancellata solo la snapshot del prodotto riaperto. Il prodotto riaperto rimarrà in archivio, ma verrà automaticamente eliminata la snapshot ponendo il prodotto nello stato in validazione (se soggetto a worckflow di validazione) o nello stato definitivo (se non soggetto a workflow di validazione).


Pulsanti

Sotto al riepilogo dei prodotti su cui si sta lavorando, compare la pulsantiera.



I pulsanti servono per eseguire le seguenti azioni:

Confronto metadati

In questa sezione i metadati di ciascun prodotto sono raggruppati e messi a confronto. Per ciascun metadato viene riportato il valore, quale prodotto lo possiede e le eventuali differenze.



Nell'immagine di esempio, nell'intestazione vengono riportate l'etichetta e il metadato che si sta analizzando. Nel nostro caso l'etichetta è "Titolo", mentre il metadato è dc.title.

Nella prima riga viene mostrato il valore del prodotto target. Nel nostro caso il prodotto è il 67890 e il valore del metadato è "Prova tool di deduplicazione". Essendo il prodotto target, questo è il valore che viene scelto di default come valore del prodotto finale e per questo motivo è evidenziato in verde e al suo fianco ha l'icona di una spunta verde.

Nella seconda riga viene mostrato il valore del prodotto da scartare. Nel nostro caso il prodotto è il 12345 e il valore del metadato è "Prova del tool di deduplicazione". Il valore del prodotto da scartare è evidenziato in rosso e al suo fianco ha l'icona di un divieto rosso.

A fianco dell'intestazione ci sono due pulsanti che permettono di eseguire le seguenti azioni:

Mostra differenze

Cliccando sul pulsante mostra differenze, viene visualizzata una form che dettaglia le differenze presenti nel valore del metadato.



Nella prima riga viene riportato il valore del metadato del prodotto da scartare, contraddistinto dal colore rosso.

Nella seconda riga viene mostrato il valore del metadato del prodotto scelto come target, contraddistinto dal colore verde.

Infine viene mostrato il valore evidenziando la differenza tra i due prodotti.

Scelta del metadato

Se ci si trova di fronte a un metadato con valori differenti, come nel caso precedente, il sistema propone come valore di default (cioè che sarà applicato al prodotto finale) quello del prodotto target. È comunque possibile scegliere l'altro valore. Per farlo basta cliccare sul valore desiderato che verrà scambiato con quello di default.



Metadato con lo stesso valore in entrambi i prodotti

Quando un metadato ha lo stesso valore viene mostrato il valore con gli identificativi di entrambi i prodotti posti sulla stessa riga. Nel nostro caso il metadato dc.date.issued ha per entrambi i prodotti il valore 2018. In questo caso il pulsante Mostra differenze non compare ed è presente solo il pulsante Elimina.



Fusione

Quando si fondono due prodotti viene mantenuto il prodotto scelto come target. Gli altri prodotti vengono eliminati. Si accede a un prodotto eliminato viene mostrata una pagina che indica la rimozione del prodotto e presenta il link per accedere al dettaglio del prodotto mantenuto a seguito della fusione.


Visione Dipartimentale

Premessa: Le afferenze dei prodotti rispecchiano le afferenze degli autori interni riconosciuti. Se un prodotto ha due autori interni e il primo autore afferisce al Dipartimento di Chimica e il secondo al Dipartimento di Fisica, allora il prodotto appartiene a entrambi i Dipartimenti.

Nel caso in cui vi siano degli utenti preposti alla deduplicazione che operano in Visione Dipartimentale, occorre tenere presente che questi potranno operare solo sui prodotti che si riferiscono al proprio Dipartimento. Se in un gruppo di prodotti da confrontare è presente un prodotto che ha almeno un autore interno non afferente al Dipartimento dell'utente che sta operando in Visione Dipartimentale, allora il sistema inibisce il confronto inserendo un messaggio nell'intestazione del gruppo.

Gli amministratori dell'Archivio possono modificare il testo del messaggio attraverso il tool di gestione delle etichette utilizzando come chiave jsp.tools.deduplicate.disable.merge.department.authority. Ulteriori dettagli sono presenti nella guida Gestione delle etichette




Il confronto del gruppo di prodotti potrà essere fatto dall'amministratore dell'Archivio operando in visione completa.


ESEMPIO:


Francesca Neri è Superuser per Dipartimento di Fisica e opera in visione Dipartimentale:

Gruppo di due prodotti potenziali duplicati:

Prodotto 1

Prodotto 2

Francesca Neri non potrà gestire questo gruppo di prodotti per che il Prodotto 2 ha come autore interno Gianni Verdi che non afferisce al Dipartimento di Fisica.


Messaggistica

Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite, sia in fase di submission che attraverso l'interfaccia amministrativa.

Submission

Quando si sceglie l'opzione Crea duplicato dalla form che compare durante il censimento di un prodotto, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE

Interfaccia Amministrativa

Quando viene effettuato il merge attraverso il tool di deduplicazione a disposizione degli amministratori, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_MERGED_ITEM

Configurazioni possibili

La configurazione di default del tool di deduplicazione prevede che l'invio delle notifiche sia attivo per la creazione duplicato in fase di submission (MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE) e per l'avvenuta fusione attraverso l'interfaccia amministrativa (MAIL.TEMPLATE.DEDUP_MERGED_ITEM). Entrambe le mail sono spedite sia al responsabile del dato che agli autori interni del prodotto risultato dalla fusione.

È possibile applicare le seguenti configurazioni al sistema di messaggistica del tool di deduplicazione:


Ogni modifica deve essere fatta facendo pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.



Mail personalizzata a tutti gli autori interni riconosciuti

È possible attivare una configurazione che permette di visualizzare un ulteriore bottone all'interno del gruppo di azioni per consentire l'invio di mail personalizzate a tutti gli autori interni riconosciuti dei prodotti.



Per attivare questa configurazione occorre fare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.


Cliccando su questo tasto viene generata una mail gestita dal client di posta impostato nel browser. La mail ha come destinatari tutti gli autori interni riconosciuti di tutti i prodotti del gruppo di potenziali duplicati.

L'oggetto della mail è Potenziali duplicati

Il testo è il seguente

Abbiamo rilevato un potenziale duplicato


- [Item ID Prodotto 1]:[Titolo prodotto 1] 
- [Item ID Prodotto 2]:[Titolo prodotto 2] 
- [Item ID Prodotto n]:[Titolo prodotto n] 
E' pregato di contattare il suo segretario di dipartimento e comunicargli se la pubblicazione è la stessa oppure è diversa.

Utente: [nome, cognome utente deduplicazione]
Email: [email utente deduplicazione]
utente deduplicazione è l'utente che sta utilizzando il tool di deduplicazione


Essendo questa mail gestita dal client di posta di ciascun utente è possibile modificare il testo o l'oggetto a proprio piacimento prima di procedere all'invio.

Tuttavia è possibile modificare il testo di default utilizzando il tool di gestione delle etichette. Le chiavi da utilizzare e i relativi valori di default sono i seguenti:


jsp.layout.submit.checkduplicate.email.subject = Potenziali%20duplicati
jsp.layout.submit.checkduplicate.email.bodyPart1 = Abbiamo%20rilevato%20un%20potenziale%20duplicato%0A%0A
jsp.layout.submit.checkduplicate.email.bodyPart2 =  E%27%20pregato%20di%20contattare%20il%20suo%20segretario%20di%20dipartimento%20e%20comunicargli%20se%20la%20pubblicazione%20è%20la%20stessa%20oppure%20è%20diversa%2E
jsp.layout.submit.checkduplicate.email.userFullname = Utente:
jsp.layout.submit.checkduplicate.email.userEmail = Email: