
Il libro è nato dalla constatazione della non presenza di testi in italiano sullo specifico argomento che potessero essere usati da quanti vogliono, per la prima volta, affrontare il tema dell’indicizzazione applicata sia alle risorse bibliografiche che ai documenti.
L’indicizzazione, intesa come processo di individuazione dei concetti chiave e loro successiva enunciazione tramite l’impiego di un linguaggio documentario, è la valutazione del potenziale informativo di una risorsa qualunque ne sia la natura e il supporto di redazione.
Per le risorse bibliografiche è una attività consolidata nell’uso e compiutamente definita in tutti gli aspetti applicativi. Lo stesso non può dirsi per i documenti testuali nonostante le indicazioni della norma ISO 5963 poi richiamata esplicitamente nella norma ISO 15489-1. La rapida transizione al digitale della documentazione amministrativa rende però necessario e inderogabile un cambio di passo e l’avvio di una riflessione anche in ambito archivistico-documentale così come avviene già in altri paesi europei. L’attività, in entrambi gli ambiti, è indispensabile per il recupero dell’informazione relativa ad una qualunque risorsa in quanto ne definisce i punti di accesso nominali e semantici.
Quali sono i principali approcci teorici all’indicizzazione delle risorse bibliografiche e dei documenti testuali?
L’indicizzazione può riferirsi alla semiotica o alla semantica. Con la prima costruiamo dei punti di accesso utilizzando i segni che una risorsa o un documento possiedono per essere identificati. Per un libro, ad esempio, il nome dell’autore, la data di pubblicazione, l’indicazione dell’editore, ecc, mentre l’indicizzazione semantica descrive il contenuto concettuale di un documento per come indicato nella citata norma ISO 5963. Specie in ambito documentale l’indicizzazione è prevalentemente semantica ed è applicata alla normalizzazione di alcuni specifici campi del documento, quali l’oggetto, per i quali la descrizione in linguaggio naturale rende difficoltoso il recupero dell’informazione specie all’interno dei sistemi di gestione documentale.
Quali sono i metodi e gli strumenti per l’analisi dei testi e l’individuazione dei termini di indicizzazione?
Per l’individuazione dei termini di indicizzazione la prima operazione è l’analisi concettuale del testo che, per come già accennato, mira ad identificare il soggetto principale o tema base di ogni testo definendo un sintagma – l’enunciato di soggetto – che lo contenga nella maniera più esaustiva possibile. Da questo si passa poi ad identificare la stringa di soggetto composta da termini che vanno normalizzati con l’uso di strumenti di controllo terminologico di articolazione e complessità diversa a seconda del contesto d’uso e della comunità di riferimento. Per la costruzione delle stringhe di soggetto il metodo comunemente utilizzato è quello dell’analisi dei ruoli ispirato al PRECIS (Preserved Context Indexing System), sistema di indicizzazione semantica adottato dalla British National Bibliography. Tale processo pur se codificato e standardizzato, risente, a volte, della difficoltà di identificare con certezza il soggetto sia, inevitabilmente, delle competenze e delle capacità dell’indicizzatore tanto che i migliori risultati si ottengono – in genere – in domini circoscritti e specializzati.
Come avviene l’indicizzazione dei documenti testuali?
I documenti testuali, intendendo con questa definizione i documenti e gli atti prodotti da una qualunque persona fisica o giuridica nell’esercizio della sua attività, non nascono in base a una logica di volontarietà ma in base a un principio di necessità che è quello del raggiungimento delle finalità proprie del soggetto produttore.
In tali documenti l’individuazione di termini di indicizzazione, rappresentativi del contenuto concettuale dei testi cui si riferiscono, è particolarmente rilevante in relazione alla necessità di dare tempestiva risposta agli utenti. In ogni organizzazione il punto di ingresso della quasi totalità dei documenti è il sistema di protocollo che obbligatoriamente registra ogni atto che viene prodotto o ricevuto. Dal 20043 il sistema è esclusivamente digitale per le pubbliche amministrazioni,4 ma, di fatto, lo è in tutte le strutture organizzate pubbliche e private.
Nel 2009 il progetto Aurora ha avviato una prima riflessione sulla normalizzazione – principalmente morfologica e sintattica – delle voci “corrispondente” e “oggetto” del protocollo informatico. Il Report di presentazione delle attività specificava che i principi ispiratori del lavoro erano compatibili con gli standard ISAAR (CPF) e ISAD (G) e si riferivano anche alle “Regole italiane di catalogazione per autori (RICA ora REICAT) per quanto attiene alla descrizione dei corrispondenti e ad alcuni documenti che perseguono finalità analoghe di normalizzazione delle descrizioni”.
I documenti correnti, ovvero quelli necessari al quotidiano disbrigo delle attività amministrative, pur se suscettibili di diventare di interesse culturale, hanno una natura operativa prevalente e, in ragione di questa particolarità, hanno tempi ed esigenze completamente diversi da quelli con prevalente valore storico culturale. Se con qualche distinguo e accortezza è possibile utilizzare le indicazioni contenute nella norma ISO 5963 sia per indicizzare i materiali a stampa sia i documenti d’archivio con valore storico culturale non altrettanto può farsi per i documenti correnti nonostante la fattispecie prevista dalla norma ISO 15489-1 si riferisca proprio a questa specifica tipologia documentale. L’attività di identificazione dell’intitolazione dell’unità archivistica in fase di riordinamento di un complesso documentale disordinato, pur nel rispetto delle segnature originarie, tende ad identificare il contenuto concettuale dei documenti aggregati e ha quindi metodi e tempi assimilabili all’analisi concettuale e alla identificazione della stringa di soggetto tipica dei materiali bibliografici. Diverso è il caso dell’indicizzazione dei documenti correnti per i quali le quantità circolanti e le tempistiche di evasione non rendono possibile, spesso, analisi di dettaglio anche se limitate a specifiche parti del testo.
Nel caso dei documenti amministrativi l’attività di indicizzazione deve quindi essere preferibilmente un apriori ovvero condotta mediante una preventiva normalizzazione delle voci oggetto e mittente da realizzarsi al momento dell’input nei sistemi di gestione secondo metodi e tecniche che descriviamo nel volume curato insieme a Mauro Guerrini.
Roberto Guarasci è professore ordinario di Conservazione dei documenti digitali all’Università della Calabria e Direttore scientifico della rivista “AIDAinformazioni. Rivista italiana di scienze dell’informazione”.