Introduzione

Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione che fa parte del set di funzionalità rese disponibili all'utente per migliorare e garantire uno standard elevato della qualità dell'Archivio. Il controllo di potenziali pubblicazioni doppie, oltre a interessare la fase di censimento dei prodotti da parte dei docenti/ricercatori (come descritto nella pagina Controllo duplicati in submission (DA FARE), può essere svolto anche attraverso un tool messo a disposizione degli utenti amministratori dell'Archivio che operano in 'visione completa' (o gruppo di utenti designati a tale incarico); a questo tool è dedicata la corrente sezione del manuale.

Per individuare potenziali duplicati, il sistema confronta i valori dei seguenti metadati: Titolo, DOI, ISBN, PubMedID, Wos e Scopus. L’algoritmo di confronto si basa sull’uguaglianza del contenuto di questi campi, pertanto allo stesso Titolo, o allo stesso codice DOI, o ISBN, o PubMedID, o Wos, o Scopus possono corrispondere più pubblicazioni.


E' possibile fare in modo che il tool di deduplicazione sia accessibile anche agli utenti che operano a livello Dipartimentale (visione dipartimentale). Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing Customer Portal.

Accedendo al tool si visualizza la pagina riepilogativa iniziale in cui vengono presentati tutti i prodotti in Archivio che il sistema ha individuato come potenziali duplicati. Il raggruppamento viene fatto per stato del prodotto e tipo di metadato su cui è stata riscontrata la somiglianza del dato.

Di seguito i dettagli sul contenuto delle colonne presenti nella tabella riepilogativa

Al click sul contatore numerico, del raggruppamento di interesse, si accede alla pagina di ricerca in cui sono esposti i dati.  La pagina è composta da due schede: 'Tutti' in cui sono elencati tutti i possibili duplicati presenti in Archivio,  e 'Cerca per ID' in cui è possibile avviare una ricerca mirata per prodotto.

Scheda 'Tutti'

Il titolo della scheda indica all'utente in quale gruppo di ricerca si trova in quel momento, es. 'Records duplicati per DOI', 'Records duplicati per ISBN', ecc.  Al di sotto del titolo sono presenti i filtri per permettere all'utente di raffinare la ricerca secondo i criteri impostati, alcuni di essi si presentano prevalorizzati.

Di seguito i dettagli dei campi presenti 


  • Il filtro 'Escludi dal titolo parole comuni' di default è configurato per escludere le parole 'Introduzione' o 'Prefazione'. È possibile modificare la lista di parole da escludere a seconda delle esigenze dell'Ateneo. Per farlo occorre far pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.
  • Nel filtro 'Ricerca per' le scelte WOS e SCOPUS sono accessibili solo agli Atenei che hanno sottoscritto il servizio premium con i rispettivi editori (Elsevier e Clarivate Analytics). Nel prospetto riepilogativo, presente nella prima pagina di accesso al tool, i contatori presenti in corrispondenza dei due raggruppamenti sarà '0' (zero)

Tab Cerca per ID

Se si ha la necessità di mettere a confronto delle pubblicazioni che non sono state considerare come potenziali duplicati dal sistema di deduplicazione, e quindi non presenti nella scheda 'Tutti', è necessario accedere alla scheda ' Cerca per ID' e avviare la ricerca puntuale delle pubblicazioni di interesse. Nel campo di ricerca occorre inserire gli identificativi ID di due o più pubblicazioni (es. dfa8b9cf-d0d5-748b-e053-3c05fe0a3c96 ) separati dalla virgola e cliccare 'Confronta'


Gruppi Pubblicazioni

In entrambe le schede 'Tutti' e 'Cerca per ID', le pubblicazioni riconosciute come potenziali duplicati vanno a formare gruppi costituiti da due o più prodotti che hanno in comune il metadato su cui è stata rilevata la corrispondenza. Per facilitare gli utenti nell'attività di deduplicazione, sono esposti per ogni singola pubblicazione del gruppo i dati degli identificativi esterni associati alla stessa (DOI, ISI, Scopus e PubMed) .

Lo sfondo di ogni gruppo è colorato e può essere verde, giallo, azzurro oppure grigio. La differente colorazione sta ad indicare all'utente quanti identificativi esterni hanno in comune le pubblicazioni di un gruppo: 

Le logiche descritte sopra si applicano solo a gruppi di due pubblicazioni, per i gruppi con più due pubblicazioni lo sfondo è bianco. Anche le azioni a disposizione dell'utente per la gestione dei duplicati dipendono dalla composizione numerica del gruppo che si possono distinguere in:

Nell'immagine che segue un esempio di gruppo costituito da due pubblicazioni

Nell'immagine che seguire un esempio di gruppo costituito da più di 2 pubblicazioni

Di seguito i dettagli delle informazioni e azioni presenti nei gruppi: 

  1. 'Intestazione del gruppo': è esposto il metadato rilevato dal sistema come comune a più pubblicazioni, e che ha determinato il raggruppamento (nell'immagine sopra si tratta del tipo di metadato 'titolo').
  2. 'Check' di selezione: serve a definire quale delle pubblicazioni nel gruppo è da considerarsi come 'target' e quindi mantenuta all'interno dell'archivio, e sulla quale verranno conservate eventuali modifiche durante il confronto e la fusione. Vedremo in seguito come vengono gestite le pubblicazioni definite 'target').
  3. 'Azioni': appena sotto l'intestazione sono esposte le diverse azioni permesse sul gruppo di pubblicazioni  
    1. 'Non sono duplicati' -  in presenza di un falso positivo, cliccando il bottone i prodotti vengono esclusi dal tool di deduplicazione;
    2. 'Confronta' - permette di accedere alla pagina di confronto dei dati presenti nelle pubblicazioni. 
    3. 'Target' - serve a definire quale tra i prodotti presenti nel gruppo dovrà essere conservato all'interno dell'archivio ed eventualmente integrato con i metadati del prodotto scartato.
    4. 'Seleziona tutti' - il pulsante è presente solo nei gruppi con più di due pubblicazioni, e consente di effettuare una selezione multipla di tutti i prodotti proposti. Dopo averlo cliccato, per selezionare i prodotti presenti, lascia il posto al pulsante 'Deseleziona tutti' (con funzione opposta).
    5. 'Annulla Target' - disponibile solo per gruppi con più di 2 pubblicazioni.
    6. 'Notifica autori' - esegue l'invio di una e-mail a submitter e coautori per segnalare il potenziale duplicato. La presenza di questo pulsante è soggetta a configurazioni
  4. Set di dati della pubblicazione: sono presenti diversi dati che appartengono alla pubblicazione: titolo, tipologia, id della pubblicazione (link che permette di accedere al dettaglio della pubblicazione), handle (se lo stato diverso da bozza), stato della pubblicazione, Responsabile del dato e Dipartimento di afferenza.
  5. 'Elimina': esegue la cancellazione della pubblicazione; tale azione ha lo stesso impatto del bottone 'Elimina' presente nel backoffice dei prodotti;
  6. Icona 'Pubblicazioni già confrontate' a forma di 'ingranaggio' : vengono tracciati quanti e quali confronti hanno interessato la pubblicazione; si tratta delle operazioni di verifica (confronto) fatte dall'amministratore attraverso il tool. Al click sul contatore numerico si apre una modale in cui sono esposte le informazioni sulle pubblicazioni confrontate.

Gestione Gruppi con 3 o più pubblicazioni

Per gruppi composti da tre o più prodotti la scelta della pubblicazione 'target' deve essere fatta tra i prodotti scelti per il confronto. La selezione dei prodotti da confrontare avviene attraverso l'inserimento della spunta sul check di selezione presente a sinistra del prodotto (come da immagine)


In questa sezione verranno affrontati i casi d'uso che interessano la gestione di gruppi con più di 2 pubblicazioni.

REGOLA DA APPLICARE - E' bene esplicitare la regola che governa la gestione dei gruppi così costituiti:

"La comparazione deve essere fatta tra tutti i prodotti che compongono il gruppo, ad esempio: dato un gruppo formato da tre pubblicazioni simili, che definiamo A, B e C. Dove A e B sono stati già etichettati come 'non duplicati', ma nessun confronto è stato fatto tra A e C, B e C. In questo caso il sistema dovrà riproporre nel tool il gruppo delle pubblicazioni fino a quando non saranno esaurite tutte le comparazioni possibili (quindi A/C e B/C)".

1-Caso d'usoL'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e li contrassegna come 'Non sono duplicati'.

Per le pubblicazioni analizzate, il sistema traccia nella colonna 'pubblicazioni già confrontate' (a forma di ingranaggio) l'operazione eseguita (il contatore numerico viene incrementato di uno). Le pubblicazioni continuano a far parte del gruppo di potenziali duplicati fino a quando tutti i possibili confronti non sono stati eseguiti (come da regola illustrata sopra). 

Esempio di dettaglio di un gruppo di pubblicazioni con operazioni di confronto eseguite.


Esempio modale che si apre cliccando il link numerico nella colonna 'Pubblicazioni già confrontate'


2-Caso d'usoL'utente seleziona tutti i prodotti presenti nel gruppo e li contrassegna come 'Non sono duplicati'. 

In questo scenario il sistema etichetta tutte le pubblicazioni del gruppo come 'non duplicate' e non saranno più riproposte nel tool, poiché tutti i possibili confronti sono stati eseguiti con la selezione massiva dei prodotti presenti nel gruppo.

3-Caso d'usoL'utente seleziona tutti i prodotti presenti nel gruppo e clicca il pulsante  'Confronta'

Al click sul pulsante si apre la pagina in cui vengo messi a confronto i dati delle pubblicazioni. All'interno di tale pagina sono possibili diverse azoni che andremo a dettagliare meglio nella sezione dal titolo 'Confronta prodotti'. 

4-Caso d'uso:  L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e  clicca il pulsante 'Confronta'

Al click sul pulsante si apre la pagina in cui vengo messi a confronto i dati delle pubblicazioni. All'interno di tale pagina sono possibili diverse azoni che andremo a dettagliare meglio nella sezione dal titolo 'Confronta prodotti'.

Gestione Gruppi con 2 pubblicazioni

La gestione dei gruppi con due pubblicazioni segnalate come potenziali duplicati segue una procedura sicuramente meno complessa di quella prevista per la gestione dei gruppi con più di due pubblicazioni. Le azioni possibili per questi gruppi sono:

Confronta prodotti

La pagina che si apre cliccando l'azione 'Confronta' è la stessa per tutti i gruppi di prodotti. La pagina è strutturata in quattro sezioni: (DA VERIFICARE > 2 PRODOTTI)

Sezione di riepilogo dei dati principali

In questa sezione solo riepilogati i dati principali delle pubblicazioni messe a confronto: titolo, handle, collezione e responsabile del dato.

Nell'immagine riportata sotto un esempio della pagina di confronto dei dati per gruppi di 2 pubblicazioni

Con sfondo verde i dati della pubblicazione che è stata scelta come target e che verranno salvati in caso di fusione. Per il prodotto target l'identificativo interno è colorato di blue, per gli altri prodotti l'identificativo si presenta di colore grigio.

Sezione sincronizzazione sito docente

Nella sezione vengono riportati i dati relativi all'invio al sito docente delle pubblicazioni messe a confronto; in particolare:

Sezione Bitstream

In questa sezione sono elencati  i fulltext presenti nelle pubblicazioni messe a confronto.

In blu l'handle del prodotto definito come target. Di default i fulltext sono selezionati come da includere nella pubblicazione scelta come target, sarà cura dell'utente rimuovere il flag dal fulltext non di interesse.

Sezione Metadati

In questa sezione sono elencati tutti i metadati presenti nelle pubblicazioni messe a confronto: in verde quelle che appartengono al prodotto scelto come target, in rosso i metadati che appartengono alle pubblicazioni non target e che verranno scartati. I metadati che appartengono alla pubblicazione target, oltre ad avere lo sfondo verde, hanno anche un segno di 'spunta' a sinistra.

Per includere/escludere il metadato occorre cliccare sul valore: in caso di inclusione lo sfondo del metadato sarà verde, in caso di esclusione lo sfondo del metadato sarà rosso. Nella colonna a destra è indicato l'handle a cui appartiene il metadato, in blu quello del prodotto scelto come target.

E' possibile rimuovere dalla fusione un qualsiasi dato attraverso il pulsante 'Elimina', posizionato a destra del campo: in questo caso il prodotto finale non conterrà il metadato eliminato. Quando un metadato ha lo stesso valore in tutte le pubblicazioni confrontate, non sarà presente il pulsante 'Mostra le differenze' (come da immagine di esempio).

Per i metadati che hanno valori differenti è possibile visionare le differenze prima di decidere quale includere nella pubblicazione finale. Al click sul pulsante 'Mostra differenze' si apre  una maschera che mette in evidenza le differenze tra i valori presenti nelle pubblicazioni selezionate. Questa funzionalità è molto utile nel caso di stringhe lunghe, come ad esempio per gli abstract, titolo o parole chiave.

Esempio di pagina in cui sono messe in evidenza le differenze tra i valori dei metadati


Pulsanti

Nella sezione Metadati, prima dell'elenco dei metadati presenti nelle pubblicazioni selezionate per il confronto, sono presenti i pulsanti che permettono all'utente di gestire il gruppo di pubblicazioni:



CASI PARTIOLARI 

Prodotti riaperti

Un caso particolare è rappresentato dal confronto di prodotti di cui almeno uno è in stato Riaperto.

Quando un prodotto viene riaperto, viene creata una snapshot, ossia una copia temporanea. Questa copia rimane attiva fino a quando non viene terminata la sua modifica (cioè non si è concluso nuovamente il censimento del prodotto). In questi casi compare un messaggio che avverte che si sta operando su prodotti riaperti.



Quando si confrontano due prodotti e viene scelto come target il prodotto che NON si trova in stato riaperto, al termine della fusione verrà cancellata solo la snapshot del prodotto riaperto. Il prodotto riaperto rimarrà in archivio, ma verrà automaticamente eliminata la snapshot ponendo il prodotto nello stato in validazione (se soggetto a worckflow di validazione) o nello stato definitivo (se non soggetto a workflow di validazione)



Visione Dipartimentale

Premessa: Le afferenze dei prodotti rispecchiano le afferenze degli autori interni riconosciuti. Se un prodotto ha due autori interni e il primo autore afferisce al Dipartimento di Chimica e il secondo al Dipartimento di Fisica, allora il prodotto appartiene a entrambi i Dipartimenti.

Nel caso in cui vi siano degli utenti preposti alla deduplicazione che operano in Visione Dipartimentale, occorre tenere presente che questi potranno operare solo sui prodotti che si riferiscono al proprio Dipartimento. Se in un gruppo di prodotti da confrontare è presente un prodotto che ha almeno un autore interno non afferente al Dipartimento dell'utente che sta operando in Visione Dipartimentale, allora il sistema inibisce il confronto inserendo un messaggio nell'intestazione del gruppo.

Gli amministratori dell'Archivio possono modificare il testo del messaggio attraverso il tool di gestione delle etichette utilizzando come chiave jsp.tools.deduplicate.disable.merge.department.authority. Ulteriori dettagli sono presenti nella guida Gestione delle etichette




Il confronto del gruppo di prodotti potrà essere fatto dall'amministratore dell'Archivio operando in visione completa.


ESEMPIO:


Francesca Neri è Superuser per Dipartimento di Fisica e opera in visione Dipartimentale:

Gruppo di due prodotti potenziali duplicati:

Prodotto 1

Prodotto 2

Francesca Neri non potrà gestire questo gruppo di prodotti per che il Prodotto 2 ha come autore interno Gianni Verdi che non afferisce al Dipartimento di Fisica.


Messaggistica

Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite, sia in fase di submission che attraverso l'interfaccia amministrativa.

Submission

Quando si sceglie l'opzione Crea duplicato dalla form che compare durante il censimento di un prodotto, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE

Interfaccia Amministrativa

Quando viene effettuato il merge attraverso il tool di deduplicazione a disposizione degli amministratori, viene inviata la seguente mail:

Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_MERGED_ITEM

Configurazioni possibili

La configurazione di default del tool di deduplicazione prevede che l'invio delle notifiche sia attivo per la creazione duplicato in fase di submission (MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE) e per l'avvenuta fusione attraverso l'interfaccia amministrativa (MAIL.TEMPLATE.DEDUP_MERGED_ITEM). Entrambe le mail sono spedite sia al responsabile del dato che agli autori interni del prodotto risultato dalla fusione.

È possibile applicare le seguenti configurazioni al sistema di messaggistica del tool di deduplicazione:


Ogni modifica deve essere fatta facendo pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.



Mail personalizzata a tutti gli autori interni riconosciuti

È possible attivare una configurazione che permette di visualizzare un ulteriore bottone all'interno del gruppo di azioni per consentire l'invio di mail personalizzate a tutti gli autori interni riconosciuti dei prodotti.



Per attivare questa configurazione occorre fare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal.


Cliccando su questo tasto viene generata una mail gestita dal client di posta impostato nel browser. La mail ha come destinatari tutti gli autori interni riconosciuti di tutti i prodotti del gruppo di potenziali duplicati.

L'oggetto della mail è Potenziali duplicati

Il testo è il seguente

Abbiamo rilevato un potenziale duplicato


- [Item ID Prodotto 1]:[Titolo prodotto 1] 
- [Item ID Prodotto 2]:[Titolo prodotto 2] 
- [Item ID Prodotto n]:[Titolo prodotto n] 
E' pregato di contattare il suo segretario di dipartimento e comunicargli se la pubblicazione è la stessa oppure è diversa.

Utente: [nome, cognome utente deduplicazione]
Email: [email utente deduplicazione]
utente deduplicazione è l'utente che sta utilizzando il tool di deduplicazione


Essendo questa mail gestita dal client di posta di ciascun utente è possibile modificare il testo o l'oggetto a proprio piacimento prima di procedere all'invio.

Tuttavia è possibile modificare il testo di default utilizzando il tool di gestione delle etichette. Le chiavi da utilizzare e i relativi valori di default sono i seguenti:


jsp.layout.submit.checkduplicate.email.subject = Potenziali%20duplicati
jsp.layout.submit.checkduplicate.email.bodyPart1 = Abbiamo%20rilevato%20un%20potenziale%20duplicato%0A%0A
jsp.layout.submit.checkduplicate.email.bodyPart2 =  E%27%20pregato%20di%20contattare%20il%20suo%20segretario%20di%20dipartimento%20e%20comunicargli%20se%20la%20pubblicazione%20è%20la%20stessa%20oppure%20è%20diversa%2E
jsp.layout.submit.checkduplicate.email.userFullname = Utente:
jsp.layout.submit.checkduplicate.email.userEmail = Email: