Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione che fa parte del set di funzionalità rese disponibili all'utente per migliorare e garantire uno standard elevato della qualità dell'Archivio. Il controllo di potenziali pubblicazioni doppie, oltre a interessare la fase di censimento dei prodotti da parte dei docenti/ricercatori (come descritto nella pagina Controllo duplicati in submission (DA FARE), può essere svolto anche attraverso un tool messo a disposizione degli utenti amministratori dell'Archivio che operano in 'visione completa' (o gruppo di utenti designati a tale incarico); a questo tool è dedicata la corrente sezione del manuale.
Per individuare potenziali duplicati, il sistema confronta i valori dei seguenti metadati: Titolo, DOI, ISBN, PubMedID, Wos e Scopus. L’algoritmo di confronto si basa sull’uguaglianza del contenuto di questi campi, pertanto allo stesso Titolo, o allo stesso codice DOI, o ISBN, o PubMedID, o Wos, o Scopus possono corrispondere più pubblicazioni.
E' possibile fare in modo che il tool di deduplicazione sia accessibile anche agli utenti che operano a livello Dipartimentale (visione dipartimentale). Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing Customer Portal. |
Accedendo al tool si visualizza la pagina riepilogativa iniziale in cui vengono presentati tutti i prodotti in Archivio che il sistema ha individuato come potenziali duplicati. Il raggruppamento viene fatto per stato del prodotto e tipo di metadato su cui è stata riscontrata la somiglianza del dato.
Di seguito i dettagli sul contenuto delle colonne presenti nella tabella riepilogativa
Al click sul contatore numerico, del raggruppamento di interesse, si accede alla pagina di ricerca in cui sono esposti i dati. La pagina è composta da due schede: 'Tutti' in cui sono elencati tutti i possibili duplicati presenti in Archivio, e 'Cerca per ID' in cui è possibile avviare una ricerca mirata per prodotto.
Il titolo della scheda indica all'utente in quale gruppo di ricerca si trova in quel momento, es. 'Records duplicati per DOI', 'Records duplicati per ISBN', ecc. Al di sotto del titolo sono presenti i filtri per permettere all'utente di raffinare la ricerca secondo i criteri impostati, alcuni di essi si presentano prevalorizzati.
Di seguito i dettagli dei campi presenti
: consente di visualizzare i prodotti da gestire in base allo stato in cui si trovano. Il menu a tendina ha i seguenti valori:
|
Se si ha la necessità di mettere a confronto delle pubblicazioni che non sono state considerare come potenziali duplicati dal sistema di deduplicazione, e quindi non presenti nella scheda 'Tutti', è necessario accedere alla scheda ' Cerca per ID' e avviare la ricerca puntuale delle pubblicazioni di interesse. Nel campo di ricerca occorre inserire gli identificativi ID di due o più pubblicazioni (es. dfa8b9cf-d0d5-748b-e053-3c05fe0a3c96 ) separati dalla virgola e cliccare 'Confronta'
In entrambe le schede 'Tutti' e 'Cerca per ID', le pubblicazioni riconosciute come potenziali duplicati vanno a formare gruppi costituiti da due o più prodotti che hanno in comune il metadato su cui è stata rilevata la corrispondenza. Per facilitare gli utenti nell'attività di deduplicazione, sono esposti per ogni singola pubblicazione del gruppo i dati degli identificativi esterni associati alla stessa (DOI, ISI, Scopus e PubMed) .
Lo sfondo di ogni gruppo è colorato e può essere verde, giallo, azzurro oppure grigio. La differente colorazione sta ad indicare all'utente quanti identificativi esterni hanno in comune le pubblicazioni di un gruppo:
Le logiche descritte sopra si applicano solo a gruppi di due pubblicazioni, per i gruppi con più due pubblicazioni lo sfondo è bianco. Anche le azioni a disposizione dell'utente per la gestione dei duplicati dipendono dalla composizione numerica del gruppo che si possono distinguere in:
Nell'immagine che segue un esempio di gruppo costituito da due pubblicazioni
Nell'immagine che seguire un esempio di gruppo costituito da più di 2 pubblicazioni
Di seguito i dettagli delle informazioni e azioni presenti nei gruppi:
Per gruppi composti da tre o più prodotti la scelta della pubblicazione 'target' deve essere fatta tra i prodotti scelti per il confronto. La selezione dei prodotti da confrontare avviene attraverso l'inserimento della spunta sul check di selezione presente a sinistra del prodotto (come da immagine)
In questa sezione verranno affrontati i casi d'uso che interessano la gestione di gruppi con più di 2 pubblicazioni.
REGOLA DA APPLICARE - E' bene esplicitare la regola che governa la gestione dei gruppi così costituiti:
"La comparazione deve essere fatta tra tutti i prodotti che compongono il gruppo, ad esempio: dato un gruppo formato da tre pubblicazioni simili, che definiamo A, B e C. Dove A e B sono stati già etichettati come 'non duplicati', ma nessun confronto è stato fatto tra A e C, B e C. In questo caso il sistema dovrà riproporre nel tool il gruppo delle pubblicazioni fino a quando non saranno esaurite tutte le comparazioni possibili (quindi A/C e B/C)".
1-Caso d'uso: L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e li contrassegna come 'Non sono duplicati'.
Per le pubblicazioni analizzate, il sistema traccia nella colonna 'pubblicazioni già confrontate' (a forma di ingranaggio) l'operazione eseguita (il contatore numerico viene incrementato di uno). Le pubblicazioni continuano a far parte del gruppo di potenziali duplicati fino a quando tutti i possibili confronti non sono stati eseguiti (come da regola illustrata sopra).
Esempio di dettaglio di un gruppo di pubblicazioni con operazioni di confronto eseguite.
Esempio modale che si apre cliccando il link numerico nella colonna 'Pubblicazioni già confrontate'
2-Caso d'uso: L'utente seleziona tutti i prodotti presenti nel gruppo e li contrassegna come 'Non sono duplicati'.
In questo scenario il sistema etichetta tutte le pubblicazioni del gruppo come 'non duplicate' e non saranno più riproposte nel tool, poiché tutti i possibili confronti sono stati eseguiti con la selezione massiva dei prodotti presenti nel gruppo.
3-Caso d'uso: L'utente seleziona tutti i prodotti presenti nel gruppo ed esegue 'Confronta' (DA FARE)
4-Caso d'uso: L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) ed esegue 'Confronta' (DA FARE)
La gestione dei gruppi con due pubblicazioni segnalate come potenziali duplicati segue una procedura sicuramente meno complessa di quella prevista per la gestione dei gruppi con più di due pubblicazioni. Le azioni possibili per questi gruppi sono:
La pagina che si apre cliccando l'azione 'Confronta' è la stessa per tutti i gruppi di prodotti. La pagina è strutturata in quatro sezioni:
In questa sezione solo riepilogati i dati principali delle pubblicazioni messe a confronto: titolo, handle, collezione e responsabile del dato.
Nell'immagine riportata sotto un esempio della pagina di confronto dei dati per gruppi di 2 pubblicazioni
Con sfondo verde i dati della pubblicazione che è stata scelta come target e che verranno salvati in caso di fusione. Per il prodotto target l'identificativo interno è colorato di blue, per gli altri prodotti l'identificativo si presenta di colore grigio.
Nella sezione vengono riportati i dati relativi all'invio al sito docente delle pubblicazioni messe a confronto; in particolare:
Un caso particolare è rappresentato dal confronto di prodotti di cui almeno uno è in stato Riaperto.
Quando un prodotto viene riaperto, viene creata una snapshot, ossia una copia temporanea. Questa copia rimane attiva fino a quando non viene terminata la sua modifica (cioè non si è concluso nuovamente il censimento del prodotto). In questi casi compare un messaggio che avverte che si sta operando su prodotti riaperti.
Quando si confrontano due prodotti e viene scelto come target il prodotto che NON si trova in stato riaperto, al termine della fusione verrà cancellata solo la snapshot del prodotto riaperto. Il prodotto riaperto rimarrà in archivio, ma verrà automaticamente eliminata la snapshot ponendo il prodotto nello stato in validazione (se soggetto a worckflow di validazione) o nello stato definitivo (se non soggetto a workflow di validazione).
Sotto al riepilogo dei prodotti su cui si sta lavorando, compare la pulsantiera.
I pulsanti servono per eseguire le seguenti azioni:
In questa sezione i metadati di ciascun prodotto sono raggruppati e messi a confronto. Per ciascun metadato viene riportato il valore, quale prodotto lo possiede e le eventuali differenze.
Nell'immagine di esempio, nell'intestazione vengono riportate l'etichetta e il metadato che si sta analizzando. Nel nostro caso l'etichetta è "Titolo", mentre il metadato è dc.title.
Nella prima riga viene mostrato il valore del prodotto target. Nel nostro caso il prodotto è il 67890 e il valore del metadato è "Prova tool di deduplicazione". Essendo il prodotto target, questo è il valore che viene scelto di default come valore del prodotto finale e per questo motivo è evidenziato in verde e al suo fianco ha l'icona di una spunta verde.
Nella seconda riga viene mostrato il valore del prodotto da scartare. Nel nostro caso il prodotto è il 12345 e il valore del metadato è "Prova del tool di deduplicazione". Il valore del prodotto da scartare è evidenziato in rosso e al suo fianco ha l'icona di un divieto rosso.
A fianco dell'intestazione ci sono due pulsanti che permettono di eseguire le seguenti azioni:
Cliccando sul pulsante mostra differenze, viene visualizzata una form che dettaglia le differenze presenti nel valore del metadato.
Nella prima riga viene riportato il valore del metadato del prodotto da scartare, contraddistinto dal colore rosso.
Nella seconda riga viene mostrato il valore del metadato del prodotto scelto come target, contraddistinto dal colore verde.
Infine viene mostrato il valore evidenziando la differenza tra i due prodotti.
Se ci si trova di fronte a un metadato con valori differenti, come nel caso precedente, il sistema propone come valore di default (cioè che sarà applicato al prodotto finale) quello del prodotto target. È comunque possibile scegliere l'altro valore. Per farlo basta cliccare sul valore desiderato che verrà scambiato con quello di default.
Quando un metadato ha lo stesso valore viene mostrato il valore con gli identificativi di entrambi i prodotti posti sulla stessa riga. Nel nostro caso il metadato dc.date.issued ha per entrambi i prodotti il valore 2018. In questo caso il pulsante Mostra differenze non compare ed è presente solo il pulsante Elimina.
Quando si fondono due prodotti viene mantenuto il prodotto scelto come target. Gli altri prodotti vengono eliminati. Si accede a un prodotto eliminato viene mostrata una pagina che indica la rimozione del prodotto e presenta il link per accedere al dettaglio del prodotto mantenuto a seguito della fusione.
Premessa: Le afferenze dei prodotti rispecchiano le afferenze degli autori interni riconosciuti. Se un prodotto ha due autori interni e il primo autore afferisce al Dipartimento di Chimica e il secondo al Dipartimento di Fisica, allora il prodotto appartiene a entrambi i Dipartimenti.
Nel caso in cui vi siano degli utenti preposti alla deduplicazione che operano in Visione Dipartimentale, occorre tenere presente che questi potranno operare solo sui prodotti che si riferiscono al proprio Dipartimento. Se in un gruppo di prodotti da confrontare è presente un prodotto che ha almeno un autore interno non afferente al Dipartimento dell'utente che sta operando in Visione Dipartimentale, allora il sistema inibisce il confronto inserendo un messaggio nell'intestazione del gruppo.
Gli amministratori dell'Archivio possono modificare il testo del messaggio attraverso il tool di gestione delle etichette utilizzando come chiave jsp.tools.deduplicate.disable.merge.department.authority. Ulteriori dettagli sono presenti nella guida Gestione delle etichette |
Il confronto del gruppo di prodotti potrà essere fatto dall'amministratore dell'Archivio operando in visione completa.
ESEMPIO:
Francesca Neri è Superuser per Dipartimento di Fisica e opera in visione Dipartimentale:
Gruppo di due prodotti potenziali duplicati:
Prodotto 1
Prodotto 2
Francesca Neri non potrà gestire questo gruppo di prodotti per che il Prodotto 2 ha come autore interno Gianni Verdi che non afferisce al Dipartimento di Fisica.
Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite, sia in fase di submission che attraverso l'interfaccia amministrativa.
Quando si sceglie l'opzione Crea duplicato dalla form che compare durante il censimento di un prodotto, viene inviata la seguente mail:
Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE
Quando viene effettuato il merge attraverso il tool di deduplicazione a disposizione degli amministratori, viene inviata la seguente mail:
Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_MERGED_ITEM
La configurazione di default del tool di deduplicazione prevede che l'invio delle notifiche sia attivo per la creazione duplicato in fase di submission (MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE) e per l'avvenuta fusione attraverso l'interfaccia amministrativa (MAIL.TEMPLATE.DEDUP_MERGED_ITEM). Entrambe le mail sono spedite sia al responsabile del dato che agli autori interni del prodotto risultato dalla fusione.
È possibile applicare le seguenti configurazioni al sistema di messaggistica del tool di deduplicazione:
Ogni modifica deve essere fatta facendo pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal. |
È possible attivare una configurazione che permette di visualizzare un ulteriore bottone all'interno del gruppo di azioni per consentire l'invio di mail personalizzate a tutti gli autori interni riconosciuti dei prodotti.
Per attivare questa configurazione occorre fare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal. |
Cliccando su questo tasto viene generata una mail gestita dal client di posta impostato nel browser. La mail ha come destinatari tutti gli autori interni riconosciuti di tutti i prodotti del gruppo di potenziali duplicati.
L'oggetto della mail è Potenziali duplicati
Il testo è il seguente
Abbiamo rilevato un potenziale duplicato - [Item ID Prodotto 1]:[Titolo prodotto 1] - [Item ID Prodotto 2]:[Titolo prodotto 2] - [Item ID Prodotto n]:[Titolo prodotto n] E' pregato di contattare il suo segretario di dipartimento e comunicargli se la pubblicazione è la stessa oppure è diversa. Utente: [nome, cognome utente deduplicazione] Email: [email utente deduplicazione] |
utente deduplicazione è l'utente che sta utilizzando il tool di deduplicazione |
Essendo questa mail gestita dal client di posta di ciascun utente è possibile modificare il testo o l'oggetto a proprio piacimento prima di procedere all'invio.
Tuttavia è possibile modificare il testo di default utilizzando il tool di gestione delle etichette. Le chiavi da utilizzare e i relativi valori di default sono i seguenti:
jsp.layout.submit.checkduplicate.email.subject = Potenziali%20duplicati jsp.layout.submit.checkduplicate.email.bodyPart1 = Abbiamo%20rilevato%20un%20potenziale%20duplicato%0A%0A jsp.layout.submit.checkduplicate.email.bodyPart2 = E%27%20pregato%20di%20contattare%20il%20suo%20segretario%20di%20dipartimento%20e%20comunicargli%20se%20la%20pubblicazione%20è%20la%20stessa%20oppure%20è%20diversa%2E jsp.layout.submit.checkduplicate.email.userFullname = Utente: jsp.layout.submit.checkduplicate.email.userEmail = Email: |