Nella presente guida vengono illustrate le caratteristiche della funzionalità di deduplicazione che fa parte del set di funzionalità rese disponibili all'utente per migliorare e garantire uno standard elevato della qualità dell'Archivio. Il controllo di potenziali pubblicazioni doppie, oltre a interessare la fase di censimento dei prodotti da parte dei docenti/ricercatori (come descritto nella pagina Controllo duplicati in submission (DA FARE), può essere svolto anche attraverso un tool messo a disposizione degli utenti amministratori dell'Archivio che operano in 'visione completa' (o gruppo di utenti designati a tale incarico); a questo tool è dedicata la corrente sezione del manuale.
Per individuare potenziali duplicati, il sistema confronta i valori dei seguenti metadati: Titolo, DOI, ISBN, PubMedID, Wos e Scopus. L’algoritmo di confronto si basa sull’uguaglianza del contenuto di questi campi, pertanto allo stesso Titolo, o allo stesso codice DOI, o ISBN, o PubMedID, o Wos, o Scopus possono corrispondere più pubblicazioni.
E' possibile fare in modo che il tool di deduplicazione sia accessibile anche agli utenti che operano a livello Dipartimentale (visione dipartimentale). Per attivare questa configurazione è necessario effettuare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing Customer Portal. |
Accedendo al tool si visualizza la pagina riepilogativa iniziale in cui vengono presentati tutti i prodotti in Archivio che il sistema ha individuato come potenziali duplicati. Il raggruppamento viene fatto per stato del prodotto e tipo di metadato su cui è stata riscontrata la somiglianza del dato.
Di seguito i dettagli sul contenuto delle colonne presenti nella tabella riepilogativa
Al click sul contatore numerico, del raggruppamento di interesse, si accede alla pagina di ricerca in cui sono esposti i dati. La pagina è composta da due schede: 'Tutti' in cui sono elencati tutti i possibili duplicati presenti in Archivio, e 'Cerca per ID' in cui è possibile avviare una ricerca mirata per prodotto.
Il titolo della scheda indica all'utente in quale gruppo di ricerca si trova in quel momento, es. 'Records duplicati per DOI', 'Records duplicati per ISBN', ecc. Al di sotto del titolo sono presenti i filtri per permettere all'utente di raffinare la ricerca secondo i criteri impostati, alcuni di essi si presentano prevalorizzati.
Di seguito i dettagli dei campi presenti
: consente di visualizzare i prodotti da gestire in base allo stato in cui si trovano. Il menu a tendina ha i seguenti valori:
|
Se si ha la necessità di mettere a confronto delle pubblicazioni che non sono state considerare come potenziali duplicati dal sistema di deduplicazione, e quindi non presenti nella scheda 'Tutti', è necessario accedere alla scheda ' Cerca per ID' e avviare la ricerca puntuale delle pubblicazioni di interesse. Nel campo di ricerca occorre inserire gli identificativi ID di due o più pubblicazioni (es. dfa8b9cf-d0d5-748b-e053-3c05fe0a3c96 ) separati dalla virgola e cliccare 'Confronta'
In entrambe le schede 'Tutti' e 'Cerca per ID', le pubblicazioni riconosciute come potenziali duplicati vanno a formare gruppi costituiti da due o più prodotti che hanno in comune il metadato su cui è stata rilevata la corrispondenza. Per facilitare gli utenti nell'attività di deduplicazione, sono esposti per ogni singola pubblicazione del gruppo i dati degli identificativi esterni associati alla stessa (DOI, ISI, Scopus e PubMed) .
Lo sfondo di ogni gruppo è colorato e può essere verde, giallo, azzurro oppure grigio. La differente colorazione sta ad indicare all'utente quanti identificativi esterni hanno in comune le pubblicazioni di un gruppo:
Le logiche descritte sopra si applicano solo a gruppi di due pubblicazioni, per i gruppi con più due pubblicazioni lo sfondo è bianco. Anche le azioni a disposizione dell'utente per la gestione dei duplicati dipendono dalla composizione numerica del gruppo che si possono distinguere in:
Nell'immagine che segue un esempio di gruppo costituito da due pubblicazioni
Nell'immagine che seguire un esempio di gruppo costituito da più di 2 pubblicazioni
Di seguito i dettagli delle informazioni e azioni presenti nei gruppi:
Per gruppi composti da tre o più prodotti la scelta della pubblicazione 'target' deve essere fatta tra i prodotti scelti per il confronto. La selezione dei prodotti da confrontare avviene attraverso l'inserimento della spunta sul check di selezione presente a sinistra del prodotto (come da immagine)
In questa sezione verranno affrontati i casi d'uso che interessano la gestione di gruppi con più di 2 pubblicazioni.
REGOLA DA APPLICARE - E' bene esplicitare la regola che governa la gestione dei gruppi così costituiti:
"La comparazione deve essere fatta tra tutti i prodotti che compongono il gruppo, ad esempio: dato un gruppo formato da tre pubblicazioni simili, che definiamo A, B e C. Dove A e B sono stati già etichettati come 'non duplicati', ma nessun confronto è stato fatto tra A e C, B e C. In questo caso il sistema dovrà riproporre nel tool il gruppo delle pubblicazioni fino a quando non saranno esaurite tutte le comparazioni possibili (quindi A/C e B/C)".
1-Caso d'uso: L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e li contrassegna come 'Non sono duplicati'.
Per le pubblicazioni analizzate, il sistema traccia nella colonna 'pubblicazioni già confrontate' (a forma di ingranaggio) l'operazione eseguita (il contatore numerico viene incrementato di uno). Le pubblicazioni continuano a far parte del gruppo di potenziali duplicati fino a quando tutti i possibili confronti non sono stati eseguiti (come da regola illustrata sopra).
Esempio di dettaglio di un gruppo di pubblicazioni con operazioni di confronto eseguite.
Esempio modale che si apre cliccando il link numerico nella colonna 'Pubblicazioni già confrontate'
2-Caso d'uso: L'utente seleziona tutti i prodotti presenti nel gruppo e li contrassegna come 'Non sono duplicati'.
In questo scenario il sistema etichetta tutte le pubblicazioni del gruppo come 'non duplicate' e non saranno più riproposte nel tool, poiché tutti i possibili confronti sono stati eseguiti con la selezione massiva dei prodotti presenti nel gruppo.
3-Caso d'uso: L'utente seleziona tutti i prodotti presenti nel gruppo e clicca il pulsante 'Confronta'
Al click sul pulsante si apre la pagina in cui vengo messi a confronto i dati delle pubblicazioni. All'interno di tale pagina sono possibili diverse azoni che andremo a dettagliare meglio nella sezione dal titolo 'Confronta prodotti'.
4-Caso d'uso: L'utente selezione due o più prodotti presenti nel gruppo (ma non tutti) e clicca il pulsante 'Confronta'
Al click sul pulsante si apre la pagina in cui vengo messi a confronto i dati delle pubblicazioni. All'interno di tale pagina sono possibili diverse azoni che andremo a dettagliare meglio nella sezione dal titolo 'Confronta prodotti'.
La gestione dei gruppi con due pubblicazioni segnalate come potenziali duplicati segue una procedura sicuramente meno complessa di quella prevista per la gestione dei gruppi con più di due pubblicazioni. Le azioni possibili per questi gruppi sono:
La pagina che si apre cliccando l'azione 'Confronta' è la stessa per tutti i gruppi di prodotti. La pagina è strutturata in quattro sezioni: (DA VERIFICARE > 2 PRODOTTI)
In questa sezione solo riepilogati i dati principali delle pubblicazioni messe a confronto: titolo, handle, collezione e responsabile del dato.
Nell'immagine riportata sotto un esempio della pagina di confronto dei dati per gruppi di 2 pubblicazioni
Con sfondo verde i dati della pubblicazione che è stata scelta come target e che verranno salvati in caso di fusione. Per il prodotto target l'identificativo interno è colorato di blue, per gli altri prodotti l'identificativo si presenta di colore grigio.
Nella sezione vengono riportati i dati relativi all'invio al sito docente delle pubblicazioni messe a confronto; in particolare:
In questa sezione sono elencati i fulltext presenti nelle pubblicazioni messe a confronto.
In blu l'handle del prodotto definito come target. Di default i fulltext sono selezionati come da includere nella pubblicazione scelta come target, sarà cura dell'utente rimuovere il flag dal fulltext non di interesse.
In questa sezione sono elencati tutti i metadati presenti nelle pubblicazioni messe a confronto: in verde quelle che appartengono al prodotto scelto come target, in rosso i metadati che appartengono alle pubblicazioni non target e che verranno scartati. I metadati che appartengono alla pubblicazione target, oltre ad avere lo sfondo verde, hanno anche un segno di 'spunta' a sinistra.
Per includere/escludere il metadato occorre cliccare sul valore: in caso di inclusione lo sfondo del metadato sarà verde, in caso di esclusione lo sfondo del metadato sarà rosso. Nella colonna a destra è indicato l'handle a cui appartiene il metadato, in blu quello del prodotto scelto come target.
E' possibile rimuovere dalla fusione un qualsiasi dato attraverso il pulsante 'Elimina', posizionato a destra del campo: in questo caso il prodotto finale non conterrà il metadato eliminato. Quando un metadato ha lo stesso valore in tutte le pubblicazioni confrontate, non sarà presente il pulsante 'Mostra le differenze' (come da immagine di esempio).
Per i metadati che hanno valori differenti è possibile visionare le differenze prima di decidere quale includere nella pubblicazione finale. Al click sul pulsante 'Mostra differenze' si apre una maschera che mette in evidenza le differenze tra i valori presenti nelle pubblicazioni selezionate. Questa funzionalità è molto utile nel caso di stringhe lunghe, come ad esempio per gli abstract, titolo o parole chiave.
Esempio di pagina in cui sono messe in evidenza le differenze tra i valori dei metadati
Nella sezione Metadati, prima dell'elenco dei metadati presenti nelle pubblicazioni selezionate per il confronto, sono presenti i pulsanti che permettono all'utente di gestire il gruppo di pubblicazioni:
Un caso particolare è rappresentato dal confronto di prodotti di cui almeno uno è in stato Riaperto.
Quando un prodotto viene riaperto, viene creata una snapshot, ossia una copia temporanea. Questa copia rimane attiva fino a quando non viene terminata la sua modifica (cioè non si è concluso nuovamente il censimento del prodotto). In questi casi compare un messaggio che avverte che si sta operando su prodotti riaperti.
Quando si confrontano due prodotti e viene scelto come target il prodotto che NON si trova in stato riaperto, al termine della fusione verrà cancellata solo la snapshot del prodotto riaperto. Il prodotto riaperto rimarrà in archivio, ma verrà automaticamente eliminata la snapshot ponendo il prodotto nello stato in validazione (se soggetto a worckflow di validazione) o nello stato definitivo (se non soggetto a workflow di validazione)
Premessa: Le afferenze dei prodotti rispecchiano le afferenze degli autori interni riconosciuti. Se un prodotto ha due autori interni e il primo autore afferisce al Dipartimento di Chimica e il secondo al Dipartimento di Fisica, allora il prodotto appartiene a entrambi i Dipartimenti.
Nel caso in cui vi siano degli utenti preposti alla deduplicazione che operano in Visione Dipartimentale, occorre tenere presente che questi potranno operare solo sui prodotti che si riferiscono al proprio Dipartimento. Se in un gruppo di prodotti da confrontare è presente un prodotto che ha almeno un autore interno non afferente al Dipartimento dell'utente che sta operando in Visione Dipartimentale, allora il sistema inibisce il confronto inserendo un messaggio nell'intestazione del gruppo.
Gli amministratori dell'Archivio possono modificare il testo del messaggio attraverso il tool di gestione delle etichette utilizzando come chiave jsp.tools.deduplicate.disable.merge.department.authority. Ulteriori dettagli sono presenti nella guida Gestione delle etichette |
Il confronto del gruppo di prodotti potrà essere fatto dall'amministratore dell'Archivio operando in visione completa.
ESEMPIO:
Francesca Neri è Superuser per Dipartimento di Fisica e opera in visione Dipartimentale:
Gruppo di due prodotti potenziali duplicati:
Prodotto 1
Prodotto 2
Francesca Neri non potrà gestire questo gruppo di prodotti per che il Prodotto 2 ha come autore interno Gianni Verdi che non afferisce al Dipartimento di Fisica.
Il funzionamento di default del tool di deduplicazione prevede l'invio di mail di notifica in base alle azioni che sono state eseguite, sia in fase di submission che attraverso l'interfaccia amministrativa.
Quando si sceglie l'opzione Crea duplicato dalla form che compare durante il censimento di un prodotto, viene inviata la seguente mail:
Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE
Quando viene effettuato il merge attraverso il tool di deduplicazione a disposizione degli amministratori, viene inviata la seguente mail:
Messaggistica di sistema#MAIL.TEMPLATE.DEDUP_MERGED_ITEM
La configurazione di default del tool di deduplicazione prevede che l'invio delle notifiche sia attivo per la creazione duplicato in fase di submission (MAIL.TEMPLATE.DEDUP_CREATE_DUPLICATE) e per l'avvenuta fusione attraverso l'interfaccia amministrativa (MAIL.TEMPLATE.DEDUP_MERGED_ITEM). Entrambe le mail sono spedite sia al responsabile del dato che agli autori interni del prodotto risultato dalla fusione.
È possibile applicare le seguenti configurazioni al sistema di messaggistica del tool di deduplicazione:
Ogni modifica deve essere fatta facendo pervenire una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal. |
È possible attivare una configurazione che permette di visualizzare un ulteriore bottone all'interno del gruppo di azioni per consentire l'invio di mail personalizzate a tutti gli autori interni riconosciuti dei prodotti.
Per attivare questa configurazione occorre fare una richiesta all'Help Desk di IRIS attraverso il sistema di ticketing customerportal. |
Cliccando su questo tasto viene generata una mail gestita dal client di posta impostato nel browser. La mail ha come destinatari tutti gli autori interni riconosciuti di tutti i prodotti del gruppo di potenziali duplicati.
L'oggetto della mail è Potenziali duplicati
Il testo è il seguente
Abbiamo rilevato un potenziale duplicato - [Item ID Prodotto 1]:[Titolo prodotto 1] - [Item ID Prodotto 2]:[Titolo prodotto 2] - [Item ID Prodotto n]:[Titolo prodotto n] E' pregato di contattare il suo segretario di dipartimento e comunicargli se la pubblicazione è la stessa oppure è diversa. Utente: [nome, cognome utente deduplicazione] Email: [email utente deduplicazione] |
utente deduplicazione è l'utente che sta utilizzando il tool di deduplicazione |
Essendo questa mail gestita dal client di posta di ciascun utente è possibile modificare il testo o l'oggetto a proprio piacimento prima di procedere all'invio.
Tuttavia è possibile modificare il testo di default utilizzando il tool di gestione delle etichette. Le chiavi da utilizzare e i relativi valori di default sono i seguenti:
jsp.layout.submit.checkduplicate.email.subject = Potenziali%20duplicati jsp.layout.submit.checkduplicate.email.bodyPart1 = Abbiamo%20rilevato%20un%20potenziale%20duplicato%0A%0A jsp.layout.submit.checkduplicate.email.bodyPart2 = E%27%20pregato%20di%20contattare%20il%20suo%20segretario%20di%20dipartimento%20e%20comunicargli%20se%20la%20pubblicazione%20è%20la%20stessa%20oppure%20è%20diversa%2E jsp.layout.submit.checkduplicate.email.userFullname = Utente: jsp.layout.submit.checkduplicate.email.userEmail = Email: |