Modifikace záznamů na vstupu
Konverze a úpravy dodávaných záznamů před vstupem do deduplikace
Před vlastní deduplikací a importem musejí kromě kontrol proběhnout další úpravy dodaných záznamů (hvězdičkou označené nejsou nutné vždy):
- konverze datového formátu do formátu Aleph500*
- přidělení pole FMT pro specifikaci druhu záznamu
- konverze bibiografického formátu UNIMARC do formátu MARC21*
- odstranění lokálních polí 9XX a lokálních čísel autorit
- konverze kódování do UTF-8*
- vytvoření pole 900 pro vážení záznamů
- doplnění identifikačního čísla a kódu pro link na lokální záznam do pole 910
- vytvoření pomocných polí s deduplikačními klíči
Přidávání údajů o vlastníku a váze záznamu
Do pole 900 se ukládají údaje potřebné pro deduplikaci, vážení a mergování záznamů:
podpole a = sigla vlastníka záznamu
podpole b = váha (kvalitativní úroveň) záznamu
Vlastníkem záznamu je vždy instituce, která záznamy zaslala a jejíž sigla figuruje ve jménu souboru (např. u souborných katalogů vysokých škol nemusí být totožná se siglami vlastníků dokumentu v poli 910). Váha, hodnota v podpoli b, je součtem základní váhy, kterou knihovně přidělil správce na základě analýzy jejích dat, a bonusových bodů. Základní váha pro běžné importy (nová produkce) se přebírá z tabulky sigel, správce ji může pro další importy změnit. U záznamů retrokonverze správce určí základní váhu každému souboru zvlášť (obvykle 4-6). Více viz Kvalitativní ohodnocení záznamů.
Úprava pole 910
Do pole 910 se do podpole x přenese identifikační číslo záznamu z pole 001. Tento údaj slouží jednak k identifikaci zaslaných duplicit, jednak k vytváření hyperlinku do lokální báze (zde je možno použít též signaturu z podpole 910b). Pokud knihovna dodala URL pro přímé propojení na záznam ve své lokální bází, program vytvoří podpole w s hodnotou l, které posléze při prohlížení záznamu spustí mechanismus tvorby hyperlinku na základě tabulky, kde jsou tyto údaje u každé sigly uvedeny.
Vytváření porovnávacích klíčů - pole KEY
Na základě algoritmů různých pro různé druhy záznamů se vytvářejí z různých polí a podpolí záznamu tzv. "otevřené" klíče. Tyto různě dlouhé klíče se hashovací metodou MD5 zakódují do řetězce o 30 alfanumerických znacích, který se ukládá do záznamu do pole KEY, podpole a. Pro monografie se vytvářejí 1-2 porovnávací klíče, pro seriály 2-3 klíče (podle toho, zda má záznam ISBN/ISSN). Více viz Deduplikační procedury.