Temas:

dilluns, 14 d’abril del 2014

1.1.3 Índexs d'arxiu: actualització.

El contingut conceptual dels documents es representa per mitjà d'un conjunt de símbols o paraules de llenguatge natural, les quals poden procedir d’una col.lecció predeterminada o ser paraules rellevants del mateix contingut del document.

La indexació té per objectiu crear les referències del document que permetin la seva recerca  posterior.  Aquestes  referències  s’emmagatzemen en fitxers.


La indexació es fa per mitjà dels anomenats llenguatges d’indexació. N'hi ha de dos tipus:
  •          Llenguatges  lliures.
  •          Llenguatges  controlats.

1) Llenguatges lliures

Els llenguatges lliures poden estar formats per les llistes de paraules clau i els descriptors lliures.

a) Llista de paraules clau: és una col.lecció de paraules rellevants, extretes automàticament per l’ordinador, del títol, de document. En aquest procés s’exclouen les paraules sense significació com ara articles, preposicions, etc., també denominades paraules buides.
Queda clar que la llista de paraules clau és més fàcil d’obtenir , ja que la fa automàticament l’ordinador, però comporta gestionar un enorme volum  d’informació, i la qualitat del resultat és inferior , ja que no hi ha cap relació entre les paraules (sinònims); per tant, l’usuari que vulgui cercar la informació ha de preveure tots els sinònims possibles dels conceptes que li interessin, en el context dela seva recerca. A més, com que una paraula pot tenir diferents significats en funció del context, una recerca pot donar, a més dels resultats desitjat tenen res a veure amb el context de la consulta.

D’altra banda, i com a avantatge d’aquest sistema, cal esmentar que, com  aquesta llista comprèn tots els mots significatius del document, la recerca es pot afinar per  a paraules molt específiques.
Exemples de paraules clau

Si volem cercar un document  on es parla d’arrendaments haurem de buscar per arrendament, arrendatari, arrendar, etc.
D’altra banda, si fem  una recerca amb la paraula braç, els documents resultants es podran referir al braç humà, al braç d’un moble, al braç d’una grua, etc. 

b) Descriptors lliures: són una col.lecció o llista de conceptes extrets del contingut del document o que hi tenen relació mitjançant una operació intel.lectual, és a dir,procedent de  l’anàlisi  del document per una persona qualificada (eldocumentalista).
La llista de descriptors lliures, com que decideix quins són els mots o les expressions que ha d’indexar el documentalista, permet una certa normalització,ja que omet les variants ortogràfiques i evita els sinònims en la mesura que es pot. El resultat és d’un volum molt inferior al de la llista de paraules, cosa que facilita significativament la recerca. En tot cas, la qualitat és inferior als sistemes controlats, que es descriuen més endavant, però la tasca d’indexació té un cost inferior a la dels esmentats sistemes, ja que no cal tant de rigor.

2) Llenguatges controlats

En aquests tipus de llenguatge, les paraules o conceptes que serveixen per indexar un document forme part d’una llista construïda prèviament.
És a dir, que abans de començar a indexar documents, es crea una col.lecció o llista de conceptes o paraules en la qual ens haurem de basar per indexar el document.

Els descriptors són paraules o expressions compostes que permeten la indexació del document.

Aquests descriptors els extreu el  documentalista a partir de l’anàlisi d’un document , d’una llista definida prèviament i que és l’única font autoritzada.

Aquests descriptors permeten la indexació del document.

Quan la llista prèvia de descriptors no està estructurada, és a dir, no es preveuen mecanismes de relació entre els diferents elements de la llista, s’anomenallista d’autoritat.Per exemple, una llista d’autors.

Quan, en canvi, la llista prèvia està estructurada, és a dir, entre els diferents elements hi ha mecanismes de relació  (relacions d’equivalència, de jerarquia i d’associació)s’anomena tesaure. Seria el cas d’un diccionari ideològic.

 La llista  d’autoritat és un conjunt predefinit i limitat de noms i expressions.

Els descriptors són paraules o expressions compostes que permeten la indexació del document.

En la seva  preparació  s’eliminen al màxim els problemes de sinonímia y de polisèmia (diferents significats de la paraula en funció del context). El volum que necessita per emmagatzemar les referències és més petit que en els llenguatges lliures.

El tesaure també és un conjunt predefinit, limitat i sobretot estructurat de noms i expressions.

Les seves característiques redueixen al màxim els problemes de precisió amb el llenguatge, cosa que facilita notablement les recerques.

En resum, un descriptor és la llista de paraules o expressions que pertanyen al llenguatge controlat. De tota manera, per extensió, i tot i que no és gaire correcte, també s’anomenen descriptors les dels llenguatges no controlats (llistes del paraules clau i descriptor lliure), que hem vist abans.

Cap comentari:

Publica un comentari a l'entrada