El contingut conceptual dels documents es representa per mitjà d'un conjunt de símbols o
paraules de llenguatge natural, les quals poden procedir d’una col.lecció predeterminada
o ser paraules rellevants del mateix contingut del document.
La indexació té per objectiu crear les referències del
document que permetin la seva recerca
posterior. Aquestes referències
s’emmagatzemen en fitxers.
La indexació es fa per mitjà dels anomenats llenguatges
d’indexació. N'hi ha de dos tipus:
- Llenguatges lliures.
- Llenguatges controlats.
1) Llenguatges lliures
Els llenguatges lliures poden estar formats per les llistes
de paraules clau i els descriptors lliures.
a) Llista de paraules clau: és una col.lecció de paraules
rellevants, extretes automàticament per l’ordinador, del títol, de document. En
aquest procés s’exclouen les paraules sense significació com ara articles,
preposicions, etc., també denominades paraules buides.
Queda clar que la llista de paraules clau és més fàcil d’obtenir
, ja que la fa automàticament l’ordinador, però comporta gestionar un enorme
volum d’informació, i la qualitat del
resultat és inferior , ja que no hi ha cap relació entre les paraules
(sinònims); per tant, l’usuari que vulgui cercar la informació ha de preveure
tots els sinònims possibles dels conceptes que li interessin, en el context dela
seva recerca. A més, com que una paraula pot tenir diferents significats en
funció del context, una recerca pot donar, a més dels resultats desitjat tenen
res a veure amb el context de la consulta.
D’altra banda, i com a avantatge d’aquest sistema, cal
esmentar que, com aquesta llista comprèn
tots els mots significatius del document, la recerca es pot afinar per a paraules molt específiques.
Exemples de paraules clau
Si volem cercar un document on es parla d’arrendaments haurem de buscar
per arrendament, arrendatari, arrendar, etc.
D’altra banda, si fem
una recerca amb la paraula braç, els documents resultants es podran
referir al braç humà, al braç d’un moble, al braç d’una grua, etc.
b) Descriptors lliures: són una col.lecció o llista de
conceptes extrets del contingut del document o que hi tenen relació mitjançant
una operació intel.lectual, és a dir,procedent de l’anàlisi
del document per una persona qualificada (eldocumentalista).
La llista de descriptors lliures, com que decideix quins són
els mots o les expressions que ha d’indexar el documentalista, permet una certa
normalització,ja que omet les variants ortogràfiques i evita els sinònims en la
mesura que es pot. El resultat és d’un volum molt inferior al de la llista de
paraules, cosa que facilita significativament la recerca. En tot cas, la
qualitat és inferior als sistemes controlats, que es descriuen més endavant,
però la tasca d’indexació té un cost inferior a la dels esmentats sistemes, ja
que no cal tant de rigor.
2) Llenguatges controlats
En aquests tipus de llenguatge, les paraules o conceptes que
serveixen per indexar un document forme part d’una llista construïda prèviament.
És a dir, que abans de començar a indexar documents, es crea
una col.lecció o llista de conceptes o paraules en la qual ens haurem de basar
per indexar el document.
Els descriptors són paraules o expressions compostes que
permeten la indexació del document.
Aquests descriptors els extreu el documentalista a partir de l’anàlisi d’un
document , d’una llista definida prèviament i que és l’única font autoritzada.
Aquests descriptors permeten la indexació del document.
Quan la llista prèvia de descriptors no està estructurada,
és a dir, no es preveuen mecanismes de relació entre els diferents elements de
la llista, s’anomenallista d’autoritat.Per exemple, una llista d’autors.
Quan, en canvi, la llista prèvia està estructurada, és a
dir, entre els diferents elements hi ha mecanismes de relació (relacions d’equivalència, de jerarquia i d’associació)s’anomena
tesaure. Seria el cas d’un diccionari ideològic.
La llista d’autoritat és un conjunt predefinit i
limitat de noms i expressions.
Els descriptors són paraules o expressions compostes que
permeten la indexació del document.
En la seva preparació
s’eliminen al màxim els problemes de
sinonímia y de polisèmia (diferents significats de la paraula en funció del
context). El volum que necessita per emmagatzemar les referències és més petit
que en els llenguatges lliures.
Les seves característiques redueixen al màxim els problemes
de precisió amb el llenguatge, cosa que facilita notablement les recerques.
En resum, un descriptor és la llista de paraules o
expressions que pertanyen al llenguatge controlat. De tota manera, per
extensió, i tot i que no és gaire correcte, també s’anomenen descriptors les
dels llenguatges no controlats (llistes del paraules clau i descriptor lliure),
que hem vist abans.
Cap comentari:
Publica un comentari a l'entrada