Lenguajes para la recuperación de información

Este post lo vamos a dedicar a los lenguajes usados para la recuperación de información. El tema da para muchos posts, pero tranquilos que hoy solo haremos un breve repaso de alguno de estos lenguajes. Si queréis profundizar más en el tema me lo podéis pedir al final del post, en los comentarios.

Los lenguajes que vamos a ver hoy son:

  1. Listas de encabezamientos de materia.
  2. Listas de palabras clave o de descriptores libres.
  3. Tesauros.
  4. Clasificaciones.
  5. Ontologias.
  6. Taxonomias.
  7. Folksonomias.

LENGUAJES DOCUMENTALES

El concepto moderno de lenguaje documental surge a finales del siglo XIX, aunque su origen puede considerarse tan antiguo como la primera biblioteca.

Es en el siglo XIX cuando se publican dos obras emblemáticas en este campo: la Clasificacion Decimal de Dewey y las Reglas para un Catalogo Diccionario de Cutter (lista de encabezamiento de materia).

Los lenguajes documentales nos ayudan a organizar la información que contienen los documentos, bases de datos, intranets, etc., mediante el uso de términos seleccionados y controlados.

Podemos definir el lenguaje documental como un conjunto de signos o códigos que hace de intermediario o puente entre las informaciones contenidas en los documentos y las informaciones solicitadas por los usuarios.

Atendiendo a esta definición podemos decir que el lenguaje documental sirve fundamentalmente para normalizar la indización, tanto al introducir los documentos en el sistema, como en la fase de recuperación cuando los usuarios buscan la información.

Para que funcione el lenguaje documental debe ser univoco y eliminar la homonimia. Además debe contar con una sencilla organización y no ser redundante.

Algunos de los principales objetivos de los lenguajes documentales son:

  • Representar sin ambigüedad los contenidos documentales. Para ello se reduce el volumen del vocabulario de la lengua natural, mediante el uso de sustantivos o sintagmas nominales y seleccionando un solo termino para dos o mas sinónimos.
  • Proporcionar al usuario un instrumento de consulta para la búsqueda y localización de documentos. Los lenguajes de indización le indican al usuario que términos debe utilizar para su búsqueda de información y además le sugieren otros conceptos relacionados con el tema que podrían interesarle.
  • Resolver problemas planteados por el multilingüismo. Por ejemplo, el uso de tesauros multilingües sirven de puente entre distintas lenguas. Otro caso son las clasificaciones numéricas, que se pueden usar independientemente de la lengua y son comprensibles en todos los países.
  • Promover la normalización y uniformidad en la asignación de términos.
  • Presentar relaciones semánticas entre los términos.
  • Proporcionar jerarquías claras y coherentes a los sistemas de navegación para ayudar a los usuarios a localizar los contenidos que desean.

TIPOLOGIAS

Infografia: Clasificacion de los lenguajes documentales

Dependiendo del grado de control terminológico, se pueden distinguir entre:

  • Lenguajes libres: están basados en el principio de postcoordinación y
    se componen de términos no predefinidos que se va generando a partir de la realización de procesos de indización.
    De este tipo son las listas de descriptores libres y las listas de palabras clave (Uniterm, Índices permutados, Precis …).
  • Lenguajes controlados: son los lenguajes documentales propiamente dichos: tesauros, listas de encabezamientos de materia y clasificaciones.
    Presentan un vocabulario previamente elaborado, y admiten un limitado número de modificaciones en el momento de su utilización.

Dependiendo de la coordinación de los términos, es decir, en función del momento en que se combinan los elementos que los componen podemos distinguir entre:

  • Lenguajes documentales de estructura combinatoria o lenguajes de indización. En este caso el tema o temas del documento se representan mediante una palabra o combinación de varias palabras que posteriormente servirán para poder localizarlo. Se presentan alfabéticamente.
    Se distingue entre lenguaje precoordinado, cuando la combinación de términos se produce en el momento de la indización, y lenguaje postcoordinado cuando los conceptos se asocian en el momento de la recuperación.
    Ejemplos de lenguajes precoordinados: Listas de Encabezamientos de Materia y Sistema Precis.
    Ejemplos de lenguajes postcoordinados: tesauros, listas de palabras clave o de descriptores libres y folksonomias.
  • Lenguajes documentales de estructura jerárquica o clasificaciones. Ejemplos: Clasificación Decimal de Dewey y Clasificación Decimal Universal (CDU).

LISTAS DE ENCABEZAMIENTOS DE MATERIA

Se trata de lenguajes precoordinados de estructura combinatoria. Están constituidos por listas alfabéticas de conceptos (encabezamientos y subencabezamientos) que permiten la descripción analítica del contenido de los documentos.

Los encabezamientos y subencabezamientos se combinan en el momento de la indización para expresar el tema del documento. Posteriormente esos mismos encabezamientos y subencabezamientos servirán para recuperar el documento.

Cada concepto tiene una categoría diferente y ocupa una posición determinada, lo que lo convierte en un sistema mas rígido que el tesauro, pero que también evita mejor las falsas combinaciones en la fase de recuperación.

En el momento de la indización:

  • describen el contenido de los documentos.
  • agrupan en el catalogo todos los documentos de tematicas afines.
  • normalizan la terminología y evitan la ambigüedad del lenguaje natural.

En la recuperación:

  • permiten recuperar los documentos por el campo materia.
  • ayudan a localizar otros documentos relacionados a partir de las relaciones semánticas entre términos.

A continuación podéis ver un ejemplo que aparece en la Lista de Encabezamientos de Materia para Bibliotecas Publicas. Se trata del término «aviones» y como veis aparecen conceptos relacionados, conceptos similares en otros idiomas y conceptos mas específicos. Si pincháis en la imagen podéis verlo mejor.

Ejemplo del termino "aviones" en la Lista de Encabezamientos de Materia para Bibliotecas Publicas

LISTAS DE PALABRAS CLAVE O DE DESCRIPTORES LIBRES

Corresponden a lenguajes postcoordinados de estructura combinatoria, ya que los términos se asocian en el momento de la recuperación.

Se presentan en listas alfabéticas, sin ninguna estructura predefinida ni relaciones entre los términos. Excluyen algunos términos como palabras vacías y casos evidentes de polisemia o sinonimia.

Como desventaja mencionar que no hay un control eficaz del vocabulario debido a la ambigüedad del lenguaje natural. Además el usuario está sometido a las variaciones gramaticales de un mismo término y a las expresiones sinónimas de un mismo concepto.

Una ventaja que aporta es su valor informativo intrínseco, ya que se trata a menudo de términos muy específicos y actuales que permiten seguir de cerca la evolución terminología de un dominio en particular.

TESAUROS

Corresponden a lenguajes postcoordinados de estructura combinatoria.

Están constituidos por listas estructuradas de conceptos, denominados descriptores, que permiten la descripción analítica del contenido de los documentos.

Poseen una alta complejidad estructural, ya que incluyen relaciones de equivalencia, jerarquía y asociación.

Los descriptores se conciben de tal forma que los conceptos de los documentos pueden ser expresados independientemente unos de otros, ya que que todas las nociones poseen igual categoría.

El control terminológico en  un tesauro es muy alto porque:

  • no se incluyen palabras vacías de significado.
  • se forma con uniterminos y descriptores compuestos que evitan las ambigüedades y alteraciones de sentido. La univocidad de ciertos conceptos precisa que el sustantivo vaya acompañado de un adjetivo.
  • los accidentes lingüísticos, homonimia y sinonimia están controlados.

En el siguiente ejemplo podeis ver como aparece el término «Acceso de la información» en el Tesauro de la Unesco.

Ejemplo de Tesauro de la Unesco

CLASIFICACIONES

Las clasificaciones son los lenguajes documentales de mayor tradición y antigüedad.

Facilitan la descripción del contenido de un documento ubicandolo en una clase.

Los sistemas de clasificacion van de lo general a lo especifico, formando una estructura jerarquica en la que las materias que componen cada nivel se organizan de acuerdo a su afinidad o a sus posibles relaciones.

Las grandes clasificaciones documentales son:

  • Clasificación Decimal de Dewey.
  • Library of Congress Clasification.
  • Clasificacion Decimal Universal (CDU).

Para trabajar con clasificaciones lo primero que tenemos que hacer es examinar el documento para ver cual es su tema principal. Una vez identificado miramos que numeración le corresponde.

Por ejemplo, imaginad que queremos clasificar con la CDU un libro cuyo tema principal es el aparato respiratorio. Dependiendo del punto de vista desde el que se trate el tema variará la notación:

  • Si se refiere a la anatomía del aparato respiratoria irá en un 611.2.
  • Si trata sobre la fisiología del aparato respiratorio será un 612.2.
  • Si lo aborda desde la patología será un 616.2.

Como veis dependiendo del punto de vista un tema se puede clasificar en una u otra clase.

Cada clasificación tiene sus peculiaridades y sistema de funcionamiento, aunque todas suelen tener unos elementos comunes:

  • Tablas principales: contienen todas las materias del campo comprendido por la clasificación.
  • Tablas auxiliares: abarcan conceptos secundarios que ayudan a concretar las materias, como son lugar, tiempo, forma y lengua.
  • Indice: es una lista alfabética de todos los conceptos incluidos en el sistema y a cuyo lado figura la notación que guía a la tabla principal.
  • Procedimiento de notación: ésto varia de unas clasificaciones a otras. La notación es un sistema de símbolos, números o combinación de ambos que se asignan a los términos de clasificación y que permiten representar las clases y sus divisiones.
    Cuando se utiliza un único símbolo para representar los conceptos se habla de notación pura (ejemplo, la Clasificación de Dewey que solo emplea números arábigos).
    El sistema de notación mixta, por el contrario, emplea mas de un tipo de símbolo, como la Library of Congress Clasification que utiliza números y letras.

ONTOLOGIAS

Ontología es un término muy utilizado en filosofía e inteligencia artificial, que ahora se ha extendido a otros ámbitos como internet.

El termino ontologia hace referencia a la clasificación de los conceptos de un determinado dominio o área de conocimiento. Se trata de un vocabulario controlado y unificado que permite la comunicación dentro de un área de conocimiento. Su objetivo final es compartir el conocimiento que representa.

La forma de representarlas es mediante un árbol en el que se establecen las jerarquías y relaciones entre los conceptos. Además incluyen definiciones de los conceptos básicos.

Ejemplo de ontologia

Coinciden con los tesauros y clasificaciones en su capacidad para representar el contenido de un documento a través de la abstracción y de las relaciones entre conceptos.

Difieren en que la comunidad documental usa jerarquías y un mayor componente léxico en los tesauros, frente a los ingenieros especializados en ontologías que usan las matemáticas y las lógicas formales para enriquecer y representar el conocimiento. Además las ontologías introducen un mayor nivel de profundización semántica.

A partir de la base de un tesauro se puede construir una ontología, y las ontologías utilizan taxonomías para organizarse en clases y subclases, de ahí que tesauros, taxonomías y antologías estén estrechamente relacionados.

Clasificación de ontologías según:

  • su cobertura: generales, de dominio o especificas.
  • su funcion o finalidad: lingüisticas, no lingüisticas o mixtas.
  • su grado de abstracción y razonamiento logico: descriptivas o logicas.

TAXONOMIAS

La palabra taxonomía procede de los términos griegos «taxis» (ordenación) y «nomos» (norma). Uno de los primeros en usar el termino taxonomía fue Aristoteles en el año 300 antes de cristo.

El concepto tiene su origen en la biología sistemática, que estudia las relaciones entre los organismos y su historia evolutiva. Actualmente se ha extendido a otros ámbitos.

Las taxonomías son sistemas que ayudan a organizar el contenido en sitios web, intranets o portales con el fin de facilitar la navegación y el descubrimiento de recursos de información.

Su columna vertebral es la estructura jerárquica semántica. Se basa en el uso de categorías y subcategorias conectadas y relacionadas jerarquicamente, lo que facilita a los usuarios clasificar sus asuntos.

No se limitan a los contenidos documentales ni al entorno bibliotecario, sino que se crean en el entorno web para trabajar con recursos digitales y se focalizan en los usuarios, más que en los contenidos o materias.

Un ejemplo cotidiano de taxonomía es la organización de carpetas en nuestros ordenadores. Lo que hacemos es crear carpetas principales (clases) y darles un nombre relacionado con lo que contienen. Dentro de esas carpetas podemos crear otras carpetas secundarias (subclases). Todo ello se nos presenta organizado jerarquicamente.

Lo mismo hacemos cuando creamos marcadores en nuestro navegador, ya que creamos carpetas y subcarpetas relacionadas jerarquicamente.

Ejemplo de taxonomia

Las taxonomías se caracterizan por su estructura dinámica y sus etiquetas intuitivas. Pueden tener una estructura multidimensional o facetada. Entre sus ventajas destacan que son flexibles y fáciles de modificar.

FOLKSONOMIAS

Una folksonomía es un sistema de indización generado colaborativamente, también conocido como indización social agregada, y dirigido a la descripción de recursos web.

El termino folksonomía fue acuñado por Thomas Vander Wal y procede de la fusión entre folks y taxonomia. Se puede entender como la organización de contenidos web (taxonomía) realizados por cualquier persona (folks).

Puede considerarse como un sistema de asignación de palabras clave popular o social, donde no intervienen los profesionales de la información.

Su principal característica es que los responsables del proceso de etiquetado son generalmente los usuarios y creadores de los recursos, mediante el uso de un vocabulario familiar y accesible para el usuario común, lo que mejora la eficacia en la búsqueda de recursos.

No es un vocabulario controlado ni existe un conjunto de categorías fijas.

Los servicios de folksonomias indican quién ha etiquetado cada recurso y proporcionan acceso a todos los recursos etiquetados por la misma persona. Ello facilita que los usuarios puedan establecer conexiones con otros usuarios interesados en la misma temática.

Un ejemplo de folksonomia es «Delicious». Este servicio te permite gestionar tus marcadores sociales, es decir, puedes guardar, clasificar y compartir los enlaces de tus webs favoritas, usando las etiquetas que tú elijes.

El etiquetado libre de las folksonomias tiene las mismas ventajas que un sistema de indización en lenguaje natural: simplicidad, transparencia, establecimiento de pesos por popularidad y aparición inmediata de nuevos términos.

Entre las desventajas destacan la baja precisión en la recuperación, la polisemia, la sinonimia, los plurales y la ausencia de normas para la construcción de términos compuestos.

PARA SABER MAS…

Docutes: Tesauro sobre Ciencias de la Documentación elaborado por la Universidad de León.

Lista de Encabezamientos de Materia para Bibliotecas Publicas.

Lenguajes documentales, elaborado por Irene Navas.

Bueno, hasta aquí el post de hoy sobre lenguajes utilizados en la recuperación de información, ¿que os ha parecido? Espero vuestros comentarios.

4 comentarios en “Lenguajes para la recuperación de información

  1. Pingback: El documentalista de museos – DOKUTEKANA

  2. Pingback: La indizacion de documentos – DOKUTEKANA

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s