Skip to end of metadata
Go to start of metadata

Sommario

Introduzione

È possibile accedere alla funzionalità di deduplicazione dal menu a sinistra Prodotti -> Tool di manutenzione -> Deduplicazione, cerchiato in rosso nella figura sotto.

La pagina presenta due tab: "Tutti" e "Cerca per ID".

Il tab "Tutti" mostra i potenziali duplicati trovati dal sistema. Dalla versione di IRIS 15.10.01.00, è stata introdotta una maschera di ricerca che permette di filtrare i risultati in base a Titolo, Id prodotto, DOI, Data di pubblicazione, Data di inserimento, Handle, Dipartimento, Autore interno.

Il tab "Cerca per ID", invece, serve a mostrare i duplicati che non sono stati trovati automaticamente dal sistema, ma che è l'utente a chiedere di confrontare, selezionandoli con l'ID.


Tab Tutti

Nel tab "Tutti", la prima voce (il menu a tendina "Tra quali prodotti cercare") consente di scegliere se effettuare la ricerca tra tutti i potenziali duplicati dell'archivio, oppure di escludere i casi già verificati.

Per comprendere a fondo di cosa si tratta occorre fare una premessa. Quando si effettua la submission di un item il sistema verifica che i dati inseriti (come ad es. il titolo o il DOI) non compaiono già in un item presente in archivio. Al verificarsi di casi come questo il sistema mostra un popup nel quale richiede all'utente di indicare, per ognuno degli item "simili", se sia un duplicato oppure no. Quando si sceglie "No" gli item vengono segnalati come non duplicati (vedi Inserimento nuovo prodotto#Autoriconoscimentoautori). Quindi, se nel campo "Tra quali prodotti cercare" si sceglie "Escludi verificati", si prendono in considerazione solo i prodotti che non sono stati segnalati come non duplicati in fase di submission da un utente.

La seconda voce, ossia la tendina "Ricerca per", permette di scegliere il metadato in base al quale due prodotti vengono considerati l'uno il duplicato dell'altro (Titolo, DOI, ISBN, PubmedID). Se ad esempio si sceglie il Ricerca per Titolo, vengono mostrati gli item i cui titoli sono esattamente uguali (viene confrontato l'MD5 dei titoli).

Attraverso gli altri filtri a disposizione è possibile raffinare la ricerca che si sta effettuando. Se ad esempio si aggiunge come "Data di inserimento" il range   - , verranno cercati i potenziali prodotti che hanno lo stesso titolo, inseriti tra il   e il . Cliccando poi sul tasto "Cerca" il sistema esegue la ricerca desiderata.

Tab Check per item ID

Il secondo tab "Check per item ID" consente di eseguire una ricerca mirata di due o più record. La ricerca viene effettuata attraverso l'id degli item. Gli id devono essere inseriti separati da virgola ",".

L'item ID è l'identificativo generato da IRIS per indirizzare univocamente l'item al suo interno. Per individuare gli item ID il modo più veloce è prenderlo dall'url della scheda prodotto accedendo dal desktop prodotti nell'area riservata (se si accede alla scheda prodotto dall'area pubblica c'è l'handle la posto dell'item ID).

 Cliccando sul tasto Confronta viene mostrato il raggruppamento dei prodotti selezionati.

 

Risultati della ricerca

I risultati della ricerca vengono proposti come raggruppamenti di prodotti sui criteri scelti. Tra i raggruppamenti proposti almeno un prodotto soddisfa tutti i criteri di ricerca inseriti. Nel caso descritto precedentemente come criterio era stato scelto il titolo, mentre come filtro di raffinamento della ricerca era stata scelta la data di inserimento. Nell'esempio sottostante viene mostrata una coppia di prodotti con lo stesso titolo, di cui il secondo appartiene al range di inserimento voluto,   - .

Una volta che si hanno a disposizione i risultati della ricerca, per ciascun ragguppamento di possibili duplicati viene data la possibilità di scegliere l'item target in fase di Confronto. Questo sarà l'item che verrà preso come riferimento per una possibile integrazione di metadati con i possibili duplicati, come spiegato successivamente. 

Quando il raggruppamento di risultati è composto da una coppia di prodotti viene proposto un item target di default. Questo è calcolato secondo l'algoritmo utilizzato finora, quindi l'item validato è prioritario sugli altri e a parità di stato viene scelto il meno recente (quello con itemId inferiore).

Leggermente differente è il funzionamento per i gruppi composti da un numero di item superiori a 2, per i quali l'utente deve esplicitamente scegliere quali item deduplicare spuntando la checkbox presente sulla sinistra. Ad esempio è possibile focalizzare l'analisi sui soli prodotti definitivi, escludendo quelli in stato di bozza.

In questo caso, i radio button per la scelta del target sono inizialmente disattivati e vengono abilitati contestualmente alla spunta della checkbox. Non potendo sapere preventivamente su quali item scegliere il target, in questo caso non viene eseguita una scelta preventiva dell'item target. Qualora poi l'utente decidesse di procedere senza aver effettuato nessuna scelta, apparirà un messaggio di attenzione che segnalerà la necessità di indicare un item target.

Se tra i risultati mostrati viene individuato un gruppo di prodotti che non sono duplicati, cliccando sul tasto "Non sono duplicati" questi vengono esclusi definitivamente dal tool di deduplicazione. Viene quindi riproposta la form di ricerca iniziale.

Confronto tra possibili duplicati

Cliccando su Confronta, si accede alla schermata di elenco dei metadati, come mostrato in figura sotto. Viene mantenuto l'handle dell'item scelto come target.

Sulla destra della schermata c'è l'ItemID: azzurro è quello del target, grigio è quello che viene usato per il confronto. Lo stesso sistema di colori viene usato per contrassegnare ogni metadato elencato sotto, per far capire all'utente se proviene dal target o dal duplicato.

Nel riquadro rosso in figura si mette in evidenza un metadato per cui esistono due versioni differenti: quello con il segno di spunta in verde è il valore scelto, mentre quello con sfondo rosso e il simbolo del divieto è quello scartato. Ma l'utente cliccando sulla riga può invertire la scelta.



Il bottone "mostra differenze" evidenzia in una modal box le differenze puntuali:


 

Il tasto "Elimina" serve per eliminare completamente il metadato.

Il bottone al centro in alto “Mostra/Nascondi valori” permette di vedere tutti i campi valorizzati (cliccandolo una seconda volta si torna alla visualizzazione completa), mentre quello accanto “Mostra/Nascondi oggetto finale” fa vedere solo l’elenco dei valori scelti, cioè quelli col segno di spunta verde. Il bottone “Fondi” unifica i due prodotti in uno solo, avente i metadati dell’oggetto finale, e riporta l’utente alla schermata iniziale.

Se un campo può avere più di un valore (come ad esempio il campo Autori), si seleziona singolarmente ogni riga e si decide se mantenerla o no.

Nella figura sotto entrambi gli autori sono mantenuti:

In quest’altro caso invece vengono entrambi scartati:

 

Nel caso di campo ripetuto non è più presente il bottone “Mostra differenze”. Esso sparisce anche se si stanno confrontando più di due item.

 

Sincronizzazione con Sito Docente

I prodotti presenti in IRIS in stato definitivo sono costantemente sincronizzati con LoginMiur. Tutte le modifiche fatte attraverso il tool di deduplicazione vengono propagate su LoginMiur. Sono sincronizzate le modifiche fatte ai prodotti che riguardano sia i dati bibliografici che i dati relativi agli autori interni del prodotto.


  • No labels