Story Transcript
TEMA 1: EL ANÁLISIS DE CONTENIDO: DESCRIPCIÓN SUSTANCIAL E INDIZACIÓN PROCESO DOCUMENTAL Entrada Tratamiento Salida Análisis Recuperación Docum. A. Formal A. Contenido Descr Catalog. Indización Descr. Sustancial Bibliog. Elab. Resúmenes Asiento Reg. Bibl. /Documental Catálogo Resúmenes Las operaciones de Análisis de Contenido, nacen como respuesta a los problemas que plantea el incremento incesante de la información documental, y como respuesta también a las nuevas necesidades informativas de los científicos fundamentalmente. Los investigadores no pueden conocer por sus propios medios todos los documentos de su interés, y sin embargo necesitan conocerlos, por esta razón los métodos documentales de identificación de contenidos son el medio más idóneo para satisfacer esas necesidades. Las técnicas de Análisis de Contenido permiten la recuperación colectiva de documentación permiten la recuperación colectiva de documentos respondiendo a demandas por campos de conocimiento, por temas, por descriptores o por palabras clave. Las demandas por campo de conocimiento responden las clasificaciones por tema, las listas de encabezamientos de materia, por descriptores tesauros, por palabras clave, responden a indización libre. Pinto Molina define el Análisis de contenido, como El conjunto de operaciones dirigidas a representar y / o describir el tema o temas principales de que trata un documento. Al profesional no le basta con identificar un documento, inserto en una colección a través de su autor, de su título, del año de publicación etc. Necesita, generalmente saber de que trata, conocer sus aportaciones y resultados, esta tarea, que es eminentemente intelectual, puede llevarse a cabo en niveles: • Indización términos significativos • Resumiendo el documento original. Se distingue, por tanto, dentro del Análisis de Contenido, las operaciones de indización, también llamada descripción característica operación que va orientada a poner de manifiesto el tema/ s del documento entresacando los elementos que lo representen para su posterior localización, y otra operación descripción sustancial, proceso de resumir, operación de resumir, elaboración de resúmenes encaminada a realizar un resumen que permita el conocimiento en profundidad del contenido del documento analizado. El Análisis de Contenido afecta a los documentos en el momento de su análisis, primera fase de tratamiento, pero incide también en la segunda fase de recuperación, dado que, en el caso de la operación de indización, no solo se indizan los documentos, sino que habrá de indizar también las preguntas de los usuarios, de manera que documento y pregunta se representen de la misma forma, de esta manera, de esta manera se puede conseguir una recuperación optima. 1
Los objetivos del Análisis de Contenido, son: • Poner de manifiesto el contenido esencial de los documentos originales. • Seleccionar los principales elementos conceptuales de esos documentos, y representarlos bajo formas diversas, pueden ser palabras clave, encabezamientos de materia, descriptores, códigos de un sistema de clasificación. • La razón última del análisis de contenido, es contribuir a recuperar la información en consonancia con las demandas de los usuarios. TEMA 2: LA DESCRIPCIÓN SUSTANCIAL: CONCEPTO Y PROCESO Lo primero que hay que plantear es la falta en castellano de un término para distinguir la operación o la actividad del resultado. Según los Cleveland, resumir, como clasificar e indizar, es el procedimiento dirigido a representar el contenido de los documentos analizados con el fin de que los usuarios puedan encontrar la información que necesitan, pero opinan que resumir difiere de clasificar e indizar, por que proporciona parte de la información que contiene el documento. Según Mihailov, Chermii, Guiliarevsky, supone proporcionar una breve exposición del contenido de un documento. Chaumier dice que la condensación supone la reducción del texto. Lancaster define el resultado, dice que un resumen es una breve, pero precisa representación del contenido del documento. El lenguaje del autor, y recogiendo las ideas principales del documento original. Con esta definición de Lancaster, coinciden Collison, Rowley, y en España Nuria Amat. Los autores Franceses Boret y Peirot, afirman que el resumen de un texto es una recomposición, una redacción, en el sentido escolar del término, en cierto modo, un discurso sobre un discurso donde, bajo el fundamento de una articulación idéntica de arreglos se expresa en un lenguaje nuevo el espíritu y si es posible el tema del texto analizado. Antonio García y María Pinto Molina, coinciden en opinar que el resumen, es un nuevo documento que incluirá todos los aspectos destacados del documento original siguiendo el estilo y la ordenación del documento original siguiendo el estilo y la ordenación del documento original, y evitando cualquier apreciación y juicio crítico. Maria Pinto Molina, define la operación de resumir, como el conjunto de transformaciones que experimentan los documentos con el trayecto Los autores franceses Boret y Peirot, afirman que el resumen de un texto es una recomposición, una redacción, en el sentido escolar del término, en cierto modo un discurso sobre un discurso, donde bajo el fundamento de una articulación idéntica de argumentos se expresa en un lenguaje nuevo el espíritu y si es posible el tono del texto analizado. Antonio García Gutiérrez y Maria Pinto Molina, coinciden en opinar que el resumen es un nuevo documento, que incluirá todos los aspectos destacados del documento original siguiendo el estilo y la ordenación del documento original, y evitando cualquier apreciación y juicio crítico. María Pinto Molina define la operación de resumir como el conjunto de transformaciones que experimentan los documentos en el trayecto que va desde su primitivo nivel microestructural (o estructura de superficie) a su correspondiente nivel macroestructural, o estructura profunda, se trata de un proceso de recreación a escala reducida del documento 2
original. Define también el resumen como El resultado de transformación analítico−sintética del contenido del documento original de extensión reducida y que actúa de intermediario entre este y el potencial usuario. En un trabajo diferente, da otra definición distinta: Resumen es el resultado del complejo operativo de resumir, y consiste en la representación abreviada de la macroestructura global del texto original. En resumen, resumen es un documento nuevo donde se representan de la forma más breve posible, las ideas principales, o la macroestructura del documento original. PROCESO PARA ELABORAR UN RESUMEN Comienza decidiendo si el documento merece ser resumido, normalmente las Bibliotecas, Centros de Documentación o las Agencias de Resúmenes establecen criterios de selección del material a resumir, teniendo en cuenta los objetivos y finalidades del centro y teniendo en cuenta también que todo lo que se publica no es significativo, además de imposible por factor tiempo y dinero el resumirlo todo. Los indicadores a tener en cuenta para establecer la selección son: • Interés temáticos de usuarios, se dará prioridad a los trabajos que el servicio de información considere que va a ser los más solicitados. • Origen de la publicación, se tendrá en cuenta la calidad y el reconocimiento del autor, así como el prestigio de la edición o de la revisión profesional. • Naturaleza del documento, su soporte, originalidad, circulación, accesibilidad, serán factores a considerar por las responsables de la política de selección, resumiéndose los trabajos de difícil acceso por la lengua o por el tipo de público que tiene circulación restringida. • A estos criterios se le aplica al de las razones económicas, se omitirán los trabajos menos prioritarios Rowley señala como especialmente necesitados de ser resumidos: • Textos originales de interés para los usuarios del servicio • Los que supongan una nueva aportación en un determinado campo del saber. • Informes finales u otros informes que se consideren de importancia fundamental. • Documentos que contienen una información difícilmente accesible tales como textos extranjeros en lenguas de poca difusión, información de carácter interno, memorandus y otros de circulación restringida. • Documentos que contengan avances, revisiones, o análisis significativos. • Aquellos con información localizada en fuentes fidedignas y acreditadas, tales como las revisiones profesionales de reconocida reputación. • Documentos procedentes de organizaciones relacionadas con una agencia de resúmenes, en concreto o con un cetro de Documentación. Una vez escogido el material a resumir, el procedimiento pasa por varias fases: • Fase de confección de la referencia del resumen, resumen que deberá ser completa y normalizada, siguiendo la norma UNE o la norma ISBD de partes componentes. • Análisis del documento, opinan estos autores que en esta fase se habrá de disociar lo sustancial de lo accidental, para poder apreciar las aportaciones del documento, eliminando toda la información secundaria o irrelevante. Para realizar este análisis, según los Cleveland, hay que tender a cinco indicadores básicos del documento original. Objetivos y alcance del trabajo Metodología Resultados 3
Conclusiones Otra información que pueda ser importante • Fase de redacción del resumen, una vez analizado el documento original. • Fase de firma, dado que el nombre del resumidor da crédito al resumen. • Fase de ordenación de resúmenes: Materia, título, autores. Maria Pinto Molina, coincide básicamente con Los Cleveland, al establecer las etapas de lo que llama proceso general de resumir, considera la fase de selección de material, como una fase previa, tras esta selección: • Lectura, q tiene como finalidad la comprensión del texto, que será el punto de partida de la siguiente etapa. • Analítica, que tendrá como objetivo el descubrir la estructura profunda del texto (Macroestructura), es decir, descubrir toda la información esencial para lograr este objetivo, propone como método segmentar el texto, dividiéndolo en unidades coexionadas, unidades que luego se reducirán y condensarán. • Síntesis, definida como el arte de componer la información resultante del análisis, opina que es un arte por que es el momento más adecuado o más difícil, dado que es prácticamente imposible establecer uso mecanismos sintetizadores que sean validos. José Antonio Moreiro, habla de tres etapas: • Reconocimiento o lectura • Reducción • Representación Reducción es equivalente a análisis y la de representación a la de síntesis. Propone estrategias metodológicas para identificar las ideas principales de la original, basándose en el análisis lingüístico − semántico del texto. Propone también estrategias para la reducción del texto semejantes a las propuestas de Maria Pinto Molina, la segmentación del texto en unidades coexionadas para proceder posteriormente a su reducción y síntesis. Coll−Vinent y Bernal Cruz, establecen las siguientes etapas: • Lectura lenta y reposada del documento primario para captar el contenido central de su mensaje. • Análisis de contenido: Destacar la idea central y establecer un orden jerárquico de las ideas más importantes. • Realizar una primera redacción como resultado del análisis anterior recomponiendo mediante síntesis lo que el análisis descompuso, pero no a base de yuxtaponer los elementos aislados del análisis, sino dándoles una unidad y un sentido nuevos. En esta fase se redactará un resumen, preocupándose no de la extensión y si de la fidelidad al texto original. • Reducción intuitiva eliminando todo aquello que en un examen más exigente se considere más necesario. Para estos autores, como para maría Pinto Molina, es la fase más difícil, un análisis correcto no garantiza un resumen correcto, aunque sea un paso previo y necesario, un conjunto de ideas claras que separadas pueden producir, en la fase de síntesis, una unidad confusa, debido a que la capacidad de síntesis es distinta a la de Análisis. Fin Tema 2 TEMA 3: EL RESUMEN: CARACTERÍSTICAS, FUNCIONES Y TIPOS
4
La etapa resumidora culmina con el resumen, en la que se presta especial atención a su estructura o composición interna, estilo, extensión y algún otro requisito. En lo que se refiere a la estructura, algunos autores, como Los Cleveland, opinan que el resumen debe tener un desarrollo lógico, constar de una introducción que albergue la información esencial no recogida en el título. Un núcleo central, compuesto por párrafos equilibrados y unas conclusiones, completando con la Referencia Bibliográfica y la sección de firma del resumen. Esta estructura solo es válida para el resumen informativo. Los Cleveland dicen que la primera frase del resumen es fundamental y debe contener el tipo de información que permita al lector decidir si sigue leyendo o no. Deberá decir conscientemente de que trata el trata el trabajo. En cuanto al estilo, Boret y Peirot dicen que la elaboración de todo resumen debe estar precedidos por unos criterios: • Fidelidad al original, debe ser respetado sin omitir partes sustanciales, se evitaran las apreciaciones personales. • Precisión: emplear los términos justos evitando la redundancia y repetición. • Claridad espositiva: Utilizar la terminología apropiada a cada documento de una sintaxis lógica. • Criterio de entropía: Dar a la frase plenitud de sentido con el mínimo de palabras, de esta forma se ahorrara tiempo al usuario y costes de edición y almacenamiento. Maria Pinto pone de relieve la dificultad de compatibilizar estos criterios, porque algunos parecen contrarios, esto es fundamental en la operación de resumir, el éxito estará en el logro de un equilibrio satisfactorio entre estos criterios. María Pinto señala también una serie de características del resumen que coinciden con las de los anteriores en su mayor parte. OBJETIVIDAD Fidelidad al original BREVEDAD Concisión PERTINENCIA Precisiones anteriores CLARIDAD Y COHERENCIA Calidad expositiva Añade otras: • PROFUNDIDAD : Variará en función de los distintos tipos de resúmenes, cuanto más breve es un resumen más profundo es, porque ese resumen capta la estructura principal del texto. • CONSISTENCIA LINGÜÍSTICA: El resumen debe ser inteligible por si mismo, dado que es un producto textual acabado y autónomo, no debe hacer referencia al resumen que no se comprenda. • PROXIMIDAD CRONOLÓGICA: Entre las ediciones del documento original y del resumen. El resumen se hace en el plazo más breve de cuando se publica. Moreiro también establece una serie de valores que deben considerarse en la redacción del resumen: • INTROPIA: Supone conseguir economía de signos sin que se altere el mensaje, y que se opone a la redundancia, que consiste en reiterar los conceptos e introducir palabras u oraciones que resultan inútiles 5
para comprender el mensaje. • PERTINENCIA: Se considera desde tres puntos de vista: • Con respecto al documento original: Equivalente a decir que debe ser fiel u objetivo. • Sistema documental en el que se trabaje: Debe ser homogéneo o normalizado, cada centro tiene sus reglas de resúmenes. • Usuarios: Un resumido no deberá perder de vista su objetivo, satisfacer las necesidades de unos usuarios generalmente particulares, de los que se conocen los interés temáticos, a la hora de resumir, se darán más datos de aquella parte que se crea de su mayor interés de ese centro concreto. Para todo tipo de documentos, y de resumidores, en esta etapa se trata de expansionar la estructura perdida o la idea principal obtenido durante el proceso analítico, aunque esta expansión deberá quedarse en los mismos niveles de descripción superficial, dado que el resumen debe ser breve, en esta etapa el resumidor pondrá en juego sus cualidades, habilidades y conocimientos para reconstruir el documento original a escala reducida. • Mantener al investigador, informando de los desarrollos de su campo temático. • Superar las barreras del lenguaje, dado que los resúmenes se presentan en lenguas de amplia difusión. • Ayudar a la búsqueda retrospectiva de la información, dado que muchas bases de datos incluyen junto con las referencias los resúmenes que ayudan a la selección del texto. • Constituir el punto de partida para la indización. Según Moreiro, establece 6 objetivos de los resúmenes: • Servir de transmisor de información, dado que avisa y explica lo más importante de los documentos. • Valorar el interés del contenido de los documentos. • Facilitar la comprensión del original. • Sustituir al original: Puede sustituirlo o bien cuando el articulo no nos interesa o cuando lo omitimos. • Utilidad para la recuperación de la información • Servir de transcodificador y superar las barreras del lenguaje (Maria Pinto). La mayoría de los autores coinciden con estas finalidades, como es el francés Neet, que las resume en cuatro: • Auxiliar del lector e investigador. • Auxiliar de traducción • Auxiliar de indización • Auxiliar de búsqueda en línea TIPOS DE RESUMENES Los criterios para establecer la tipología de los resúmenes son variados, y además pueden combinarse entre si, lo que normalmente ningún resumen encajaría en una única categoría.
6
Van Diik y Van Slype, utilizan un criterio cuantitativo, es decir, clasifican los resúmenes según su longitud y llegan a distinguir hasta 9 tipos, que en orden creciente van desde el título pasando por el resumen telegráfico hasta el resumen indicativo e informativo. El ultimo resumen sería equivalente al texto original. Chaumier establece otros criterios, la forma del resumen, que es lo que otros autores denominan estructura interna que tomo en consideración no solo la cantidad sino la calidad de la información que se transmite e introduce también el criterio del origen y la autonomía del resumen. Los Cleveland agrupan los resúmenes atendiendo a tres criterios: • Estructura Interna • Propósito Interno o finalidad • Criterio del autor A estos criterios, Pinto Molina añade otros: • Densidad Informativa • Resumen Indicativa • Informativo • Informativo− Indicativo • Analítico • Crítico • Autoría 1. Resumen del autor • De experto en la materia del documento • Resumen de profesional • Lenguaje empleado ⋅ Objetivos, propósito o finalidad de los resúmenes: • Orientados a la disciplina • Parciales • Con fines especiales • Fuentes Originales • De documentos Bibliográficos • Resumen de documentos no bibliográficos • Forma de presentación de los resúmenes • Telegráficos • Discursos • Tabulares • Modulares 7
• Según el modo de difusión • Simultanea • En revistas de Resúmenes • En bases de datos Moreiro establece también una clasificación similar a la de Maria Pinto. El criterio de los resúmenes mejor es el de densidad informativa (Maria Pinto), estructura interna (Cleveland), representación macroestructural (Moreiro). Según este criterio, los principales resúmenes que se pueden considerar son los indicativos y los informativos. El indicativo es el que capta solo la macroestructura o idea principal del documento original, por tanto su densidad informativa y su profundidad son máximas. La función principal del resumen indicativo es la de servir de alerta al usuario anunciándole la existencia del documento y ofreciéndole la información suficiente para decidir si le vale la pena leer el documento original, pero al limitarse a recoger simplemente la idea principal y general, normalmente no pueden sustituirle. Su elaboración no es muy costosa para el servicio de información, porque disminuye el trabajo de informador, quien atenderá solo a los párrafos introducidos y a los finales que son los que contienen el objeto y las conclusiones del trabajo. También son costosos, porque disminuyen los gastos de almacenamiento físico y de difusión, al ser su extensión reducida. Son resúmenes que normalmente no superan las 50 palabras y constan de un solo párrafo, estos son los resúmenes que forman las bases de datos y son también los resúmenes preferidos por los centros con presupuestos escasos, y por aquellos centros que realizan muchos análisis o resúmenes. Informativo, tanto la densidad informativa como la profundidad disminuyen ligeramente con respecto al resumen indicativo, por consiguiente este resumen con finalidad informativa, ya puede describir explícitamente todos los aspectos relevantes del documento primario mediante una relación lógica y lineal de los temas tratados y este resumen expresa lo más significativo acerca de los objetivos perseguidos, los métodos usados, los resultados alcanzadas. Debido a sus características, el resumen informativo está capacitado para sustituir al original, pues proporciona a los usuarios datos suficientes para decidir la conveniencia o no de consultar el original. Estos resúmenes son muy apreciados por los usuarios pero su producción conlleva un gran consumo de tiempo. La extensión de estos resúmenes debe oscilar entre 100 y 300 palabras en más de un párrafo, estas extensiones son solo aproximadas. La longitud de un resumen dependerá de la carga informativa del documento original. RESUMEN INDICATIVO INFORMATIVO Resumen en el que las partes centrales se representan en plan informativo, mientras que aquellos aspectos de relevancia se tratan de forma indicativa. RESUMEN ANALÍTICO Tiene menor profundidad y menor densidad informativa que los anteriores, por consiguiente más detalles. Poco habitual en los servicios de resúmenes debido a que por su extensión y características requieres un mayor consumo de tiempo en su elaboración con carestía consecuente. Oscila entre las 300 y las 500 palabras. Para algunos autores, el resumen analítico es equivalente al informativo, no existe como tal independientemente, y otros lo equiparan con el resumen de autor, caso de la UNESCO o Moreiro. En cuanto al resumen crítico, Maria Pinto Molina precisa que se trata de añadir un párrafo al resumen documental, valorando el trabajo. Opina que no se puede discutir la eficacia de este resumen crítico o reseñen, debido a que proporcionan importantes mejores informativos a los usuarios, dado que no solo les transmite el 8
contenido de un documento, sino que evalúa el trabajo y los resultados obtenidos. El problema que presenta este tipo de documentos secundarios, cuyo nombre más adecuado es el de reseña, es su elaboración resulta muy gravosa, porque requiere del analista, además de un profundo manejo de la técnica de resumir un conocimiento exhaustivo de la materia objeto de la investigación para estar en disposición de analizar, aumentar y evaluar las distintas contribuciones. El segundo criterio que establecía Maria Pinto Molina, era el criterio de autoría, según este se establecen 3 tipos de resúmenes: • Resumen Autor • Resumen Experto • Resumen de resumidor profesional VENTAJAS E INCOVENIENTES El resumen del propio autor del documento original, sistema que se utiliza en todos los casos que el resumen se difunde a la luz del documento original, suele ser el caso de artículos de revista, actas de congresos, tienen como ventaja el conocimiento del trabajo. El autor conoce su trabajo con más profundidad que nadie. Desventaja, no siempre los autores son capaces de ser objetivos con sus propios trabajos y destacan en los resúmenes, aquellos que les interesa, y no lo que es fundamental. Otra ventaja sería que generalmente los autores desconocen lo técnica de resumir. En cuanto a los resúmenes de experto, son resúmenes utilizados con frecuencia e Boletines de resúmenes, e incluso a veces en las Bases de Datos, hay empresas que en vez de contratar documentos para realizar este trabajo, lo encarga a expertos a cambio de suscripciones gratis a revistas. Estos resúmenes tienen la ventaja del conocimiento que el experto tiene de los documentos a resumir, sobre los que son objetivos y extraer de ellos lo fundamental. Se prestan a convertirse en reseñas con una valoración, pero tienen el mismo inconveniente, los expertos no lo son en el procedimiento de elaboración de resúmenes, tanto el de autor como el de experto dejan mucho que desear. RESÚMENES DE RESÚMENES PROFESIONALES Estos tienen la ventaja de ser de profesionales y estar bien elaborados, el problema está en que puede no conocerla finalidad necesaria de la materia que esta resumiendo. Fin Tema 3 TEMA 4: LA NORMALIZACIÓN Y LA DESCRIPCIÓN SUSTANCIAL Son muchas y variadas las recomendaciones a los estudiosos, en cuanto a la estilo del resumen, a su forma y a su presentación externa, es el caso de las recomendaciones de Chaumier, Lancaster, Coll − Vinent y Bernal Cruz entre otros. Todavía que da mucho animo para definir un modelo de desorden de modelo de desorden sustancial con el grado deseable de precisión y de fiabilidad, por lo tanto no se puede hablar de una normalización, sino tan solo de directrices, dado que las organizaciones normalizadoras (ISO, AENOR), proporcionan tan solo directrices o consejos.
9
Con respecto a la redacción de la síntesis, pues por lo que se refiere al análisis, estas normas solo estipula que se tengan en cuenta 4 indicadores básicos: • Objetivos o propósito • Metodología • Resultados • Conclusiones Semejante es el caso de algunos servicios de resúmenes o instituciones que han publicado instrucciones para sus resumidores (UNESCO, Chemical Abstracts Service). Un buen resumen será aquel coexionado a nivel sintáctico o superficial y coherente a nivel semántico o profundo, ambas propiedades son la respuesta lógica a sus equivalentes en el texto original una vez que este texto original ha sido sometido a las diferentes etapas del proceso resumidor. La dificultad reside en la definición de un procedimiento que conduzca de manera fiable a este resultado. Según Maria Pinto Molina, los progresos en el campo del resumen estarán directamente vinculados a los dos polos que lo condicionan, el texto, el documento original por un lado, y el resumidor por otro. En este sentido, considera que el avance en este campo estará por un lado en función de los avances de la ciencia del texto, puesto que cuanto más se sepa del texto como unidad documental, mayor serán las posibilidades a la hora de resumirlo, por lo que se refiere al resumidor, los avances también dependerán de la evolución de la sicología cognitiva, mientras más se sepa de los procesos cognitivos que afectan a la mente humana, mayor serán las posibilidades de llegar a fijar un procedimiento mediante normalización para elaborar resúmenes. En este sentido, Moreiro opina que el resumen necesita un análisis interdisciplinar, o que tenga en cuenta factores psico−lingüísticos, socio − lingüísticos, gramaticales, estilísticos, y hasta literarios para llegar a ser completa la explicación. La proximidad al mundo del resumen debe ser intercalado dentro de los postulados fundamentales de las tareas del avance lingüístico. LA AUTOMATIZACIÓN DE LA DESCRIPCIÓN SUSTANCIAL Dada la dificultad de esta operación y el crecimiento de su demanda, han proliferado las tentativas de automatización, se ha empezado a utilizar el ordenador en las distintas etapas del proceso de producción de resúmenes, tales como en la etapa de entrada de la información, etapa de procesamiento de esa información, ordenador para la edición y difusión de resúmenes. En la elaboración de estos resúmenes es donde aparecen mayores dificultades, los resúmenes confeccionados por ordenador automáticamente no satisfacen todavía las exigencias de los usuarios, por que se quedan en meros extractos, es decir en sucesiones de frases representativas, pero frases inconexas entre si del documento original, ello porque el ordenador se limita a extraer frases que contengan unos términos determinados, por ejemplo aquellas frases que hablen de resultados, conclusiones, objetivos, metodología, o que contengan más términos significativos de la materia que se dedique el centro donde se elaboran esos resúmenes, términos significativos, que previamente se ha introducido en la memoria del ordenador y que un texto reconoce cuando procesa un texto. Los problemas de los sistemas automáticos para generar resúmenes derivan de las dificultades de dos tipos: • Naturaleza Semántica ( o interpretativa) • Carácter Sintáctico En lo que se refiere a la sintaxis, el problema radica en el reconocimiento de las frases por el ordenador, su identificador es a veces complicada, puesto que todas las frases no son sencillas, sino también existen oraciones compuestas, subordinadas de distintos tipos etc. El mayor problema para automatizar la operación 10
de resumir deriva de cuestiones semánticas, sabemos que existen en las lenguas muchos significantes con distintos significados, lo que da lugar a mucha ambigüedad, dado que cada unidad lingüística puede ser objeto de diversas intenciones por parte del autor y de diversas interpretaciones por parte de un receptor. Por todo lo expuesto, la descripción sustancial sigue siendo una tarea humana, debido a una dimensión intelectual importante, aunque confiados en que se profundice en el conocimiento del texto como unidad documental, de momento la automatizada solo ha tenido una utilidad importante en la edición y en la impresión en revistas o boletines simultáneamente con el articulo correspondiente o en su almacenamiento en una base de datos que permita su consulta en línea. TEMA 5: LA INDIZACIÓN: CONCEPTO Y PROCESO CONCEPTO La indización, según la UNESCO con sus principios de la UNISIST, se define desde dos puntos de vista: • De su proceso • De su finalidad DE SU PROCESO: La indización es la operación que consiste en describir las características de un documento con la ayuda de representar los conceptos contenidos en dicho documento, es decir, en transcribir al lenguaje documental los conceptos, después de haberlos extraídos del documento mediante el análisis, la trascripción al lenguaje documental se hace por medio de instrumentos de indización, tales como Tesauros, Clasificaciones etc. DESDE SU FINALIDAD: La indización juega un papel fundamental, no solo en la fase de entrada de los documentos en el sistema documental, sino igualmente en la fase de salida, cuando se formulan las demandas informativas en los dos procesos se requiere la indización, tanto para analizar los documentos, como las preguntas de los usuarios. Neet define la indización como Indizar es analizar los documentos y aislar en la riqueza de la lengua natural empleada por los autores, todos los conceptos esenciales que deben ser retenidos con vista de búsqueda posteriores. García Gutiérrez define indización como una técnica del tratamiento documental utilizada para la descripción del contenido del documento o demandas documentales que posibilita la elaboración de estrategias de recuperación mediante conceptos o materias. Dice el mismo autor, que la indización es la mejor fuerza y el instrumento auxiliar más eficaz de la información científica, interviene en dos momentos del tratamiento documental: ♦ Registro: Identificar y clasificar los documentos. ♦ Explotación: Identificar y clasificar la demanda, haciendo coincidir mediante uso de lenguajes coordinados los grupos de documentos e información pertinente con los deseos del usuario. Maria Pinto Molina, define la indización como la técnica de caracterizar el contenido de un documento y/o de las demandas documentales, reteniendo las ideas más representativas para vincularlas a unos términos de indización adecuados, bien procedentes del lenguaje natural empleado por los autores, o de un lenguaje documental previamente seleccionado. Rafael Ruiz Pérez, entiende por indización la técnica del tratamiento (análisis y recuperación) utilizada para la descripción del contenido de un documento, que posibilita la elaboración de estrategias de recuperación 11
mediante conceptos y materias. En conclusión, el proceso de indización consiste en: Representación, por medio de palabras, conceptos o temas del contenido fundamental del documento original o bien del contenido fundamental de las solicitudes de información del usuario. El proceso de indización, por lo tanto, es un proceso doble: ♦ Los documentos se indizan una vez que han entrado en el sistema. ♦ Los términos de indización obtenidos se convertirán en datos de un acceso a los contenidos documentales de una base de datos o de un catálogo o de un motor de búsqueda, permitiendo la posterior recuperación de los mismos. En la etapa de recuperación de información, los usuarios se dirigen al sistema solicitando información, para satisfacerlos es necesario hacer compatible su interés con las características de los documentos, y para ello se procede a la indización de sus preguntas. Para que exista esta coordinación o compatibilidad entre la indización de los documentos y de las preguntas, es útil la aplicación de un lenguaje documental que nos guíe y haga posible que indizadores, documentalistas y usuarios utilicen la misma terminología o los mismos significantes para los mismos significados, para que de esa forma la recuperación, fin del proceso de indización, funcione de una manera correcta, se le suele denominar consistencia de indización. PROCESO DE INDIZACIÓN Comprende varias etapas, según Chaumier y Lancaster estas etapas son dos: • Reconocimiento y extracción de los conceptos informativos. • Traducción de estos conceptos al lenguaje documental. La primera es dividida por Rowley en tres: • Familiarización con el contenido y materia del documento a indizar. • Etapa de análisis, en esta se decide que materias representa el tema principal del documento y deben ser indizadas. • Selección de términos representativos del documento analizado. Las etapas del doble proceso de indización son 4: • Recuperación del contenido documental. • Identificación de las nociones principales. • Selección de los términos de indización. • Normalización de los términos de indización. RECONOCIMIENTO DEL CONTENIDO DOCUMENTAL Se procederá a la lectura, visionado o audición del documento referidos en las Bibliografías, estos tienen partes neurálgicas con mayor riqueza conceptual y terminológica, y serán aquellas a las que acuda el indizador cuando no exista la posibilidad de leer el documento completo, como el caso de la indización de libros, estas 12
partes neurálgicas son el título, sumario, índice de materias, introducción, párrafos entrada capítulos, conclusiones generales y las de las distintos capítulos, los enunciados de tablas y figuras, frases y términos destacados, y por último el resumen. IDENTIFICACIÓN DE LAS NOCIONES PRINCIPALES A medida que realiza la lectura, el documentalista identifica los conceptos de que trata el documento, y dado que el autor del documento trabaja en un contexto determinado, interesado identificar los objetivos del análisis realizado por el autor, la metodología utilizada, los resultados obtenidos y las conclusiones derivadas de esos resultados. El indizador, además de intentar comprender el documento, tendrá que ponerse en el lugar de los usuarios potenciales de documento y determinar el contenido informativo mediante la identificación de las ideas que constituyen la razón esencial de que el documento haya sido publicado, pasando por alto todas las informaciones superfluas, marginales o precisas, de un modo que pueda evitarse el ruido en la recuperación, y detectando posibles informaciones implícitas, es decir, informaciones desarrolladas pero sin determinar, lo que permitirá evitas el silencio en la recuperación. Una indización correcta se logrará si el indizador se plantea las cinco cuestiones del paradigma de Laswell: ♦ Quien ♦ Que ♦ Cuando ♦ Como ♦ Donde Respondiendo a estas cuestiones, se obtendrán términos de indización onomásticos, temáticos, cronológicos y geográficos, para que este proceso se lleve a cabo correctamente, el analista deberá tener un conocimiento suficiente del tema. SELECCIÓN DE LOS TÉRMINOS DE INDIZACIÓN Una vez identificados las nociones principales, y previamente a su extracción, es necesario estudiarlas basándose en las relaciones entre las posibles palabras clave, pueden ser: • Sinonimia: Equivalencia • Antónimos: opuestos • Pertenecer a una misma cadena, unos conceptos engloban a otros. Se seleccionan entre los sinónimos uno, el que represente mejor al concepto, entre los antónimos también solo se selecciona uno. Entre los conceptos de la misma cadena jerárquica, se plantea que los aspectos jerárquicos están más desarrollados, se eligen, en caso contrario, se prefiere uno mas genérico que lo englobe. Habrá que procurar evitar los homógrafos, se escriben igual pero con distinto significado. Hay que componer algunos términos para evitar falsas combinaciones en la recuperación, y posteriormente se extraen los términos, siempre teniendo presentes los objetivos del Centro de Documentación, las necesidades de los usuarios, los documentos ya memorizados y los imperativos del sistema documental, dado que cada centro tiene unas necesidades diferentes, y, sobre todo, unos usuarios distintos la indización puede ser 13
selectiva. Ej.: Enseñanza − Política Historia − Economía
Política Económica Enseñanza de la Historia
Economía Política Historia de la Enseñanza
NORMALIZACIÓN Si el centro que indiza, utiliza un lenguaje documental, es esta fase se introducirán las palabras clave extraídas por medio del tesauro o lista de encabezamiento de materia, no obstante, independientemente de que se utilice o no un lenguaje documental, en esta etapa se procede, cuando el documento está en una lengua distinta de la del centro a la tradición de los conceptos, a la lengua del indizador y a su normalización, para ello el indizador toma simplemente las designaciones de los conceptos tal y como las encuentra en el documento, y tal y como las ha traducido, o tal y como las ha enviado el mismo para los conceptos implícitos que ha continuación procede a normalizarlos, transformando las formas verbales y adjetivas en formas nominales, poniendo el masculino plural, las formas en femenino y / o singular, desarrollando las siglas etc. Si consta de un solo término, será sustantivo y será plural, cuando sea contable, en singular solo nombres abstractos y nombres de disciplinas. Documento a registrar Demanda del usuario Indicación ( Análisis del documento, Traducción L.D) Codificación de la pregunta Almacenamiento Búsqueda en el sistema En el sistema. Base de datos Comparación entre los términos (descriptores) O asignados al documento / pregunta Catálogo O Motor de búsqueda Respuesta Fin Tema 5 TEMA 6: LOS PRINCIPIOS Y PARÁMETROS DE LA INDIZACIÓN La selección de los términos de indización se hará también siguiendo unos principios determinados: • PRINCIPIO DE PERTINENCIA: También denominado Principio de Relevancia, medido en contexto, en cuanto al documento que se esta indizando. Un termino de indización es pertinente, paralelamente al grado de adecuación que tenga con respeto al documento que lo contiene, la frecuencia de repetición de un termino o de sus sinónimos en un documento, suele ser un indicador correcto para medir la relevancia o pertinencia, existe una relación directa entre las cotas de relevancia o pertinencia alcanzadas por los 14
términos de indización y la eficacia de estos términos en la recuperación. • PRINCIPIO DE PROFUNDIDAD: Este factor se mide también en el contexto del documento que se está indizando y se mide desde dos puntos de vista: • Extensivo: Aquel del que se extraen términos de indización, estará indizando más profundamente. • Intensivo: Aquel documento indizado con términos más específicos, estará mas profundamente indizado que el que contengo términos más genéricos. La profundidad, desde el punto de vista extensivo o cualitativo, se corresponde con lo que se llama exhaustividad y la profundidad, desde un punto de vista intensivo o cualitativo, se corresponde a lo que se denomina especificidad o precisión. EXHAUSTIVIDAD Mide la calidad en la elección de los conceptos realmente significativos, es decir que contienen información pertinente para los usuarios Una exhaustividad demasiado reducida, hará que no se recupere los documentos relevantes, y por tanto desciende la tasa de respuesta y aumentan los silencios. Una exhaustividad demasiado alta hará que se recuperen documentos que no tengan información pertinente sobre los conceptos de la consulta, por tanto hará que disminuya la pertinencia o la relevancia, y aumente el ruido al aumentar la tasa de respuesta o exhaustividad. Depende, fundamentalmente, de la política de indización de centro, del personal disponible, de los medios económicos, del volumen del material a indizar y la calidad del trabajo de los documentos, especialmente de su capacidad de juzgar lo que es importante y lo que no lo es, y determinar conceptos implícitos, pero fundamentalmente deberá depender de la cantidad de información a destacar, es decir la carga informativa del documento. ESPECIFICIDAD Mide la calidad en la elección de los términos de indización de los conceptos incluidos dentro del documento. Se distingue: • Vertical • Horizontal VERTICAL: Se refiere a que el termino/s de indización deben situarse en el mismo nivel de precisión del concepto, o por defecto en el nivel jerárquico inmediatamente superior, una correcta especificidad vertical hace que aumente la relevancia en la recuperación. Es también denominado Regla de Precisión, esta la da Ritchter, autor que señala que un termino utilizado para designar un tema debe tener rigurosamente la misma extensión que el, aunque precisa también que es necesario indizar a niveles también generales. HORIZONTAL: Un concepto compuesto debe ser traducido por unos términos de indización compuesto, antes que por la asociación de palabras clave simple. Una buena especificidad horizontal, hace disminuir el riesgo de falsas ampliaciones, y por tanto que aumente la relevancia de la recuperación. Depende, de la política del centro, del personal disponible, de los medios 15
económicos y de la calidad del trabajo del indizador, es decir, conocimiento de la materia y su habilidad para trasladarnos el conocimiento a conceptos, y estos a términos de indización. Dependerá, del volumen y de la naturaleza del material a indizar, un artículo de una publicación periódica se indizara con mayor profundidad desde un punto de vista intensivo que un libro, puesto que se le asignaros términos más específicos que a este, igualmente una foto se indizara con términos más precisos o específicos que una colección de ellas, a la que se asignara términos generales que las describen todos. La exhaustividad y especificidad, están relacionados directamente: Una mayor exhaustividad implica, generalmente, una mayor especificidad, puesto que la mayor exhaustividad, permite representar los conceptos más concretos, por el contrario, una menor exhaustividad, generalmente significa una menor especificidad, puesto que habrá de buscar términos más generales que abarquen varios conceptos. La profundidad media de indización utilizada, se sitúa entre 8 y 12 términos de indización y según Chaumier, el tiempo que se dedique a esta no influye, puesto que si para una profundidad media de indización de 10 palabras clave, el tiempo que se emplea de media es unos 20 minutos. Van Slype, dice que la indización humana requiere de 5 − 15 Minutos, depende del tamaño del texto a indizar, su complejidad, profundidad, indización y de lo familiarizado que muestre el indizador con el tema y la lengua del documento. Vickery señala que en general los centros, tienden a aumentar el número de términos de indización, debido a que el incremento del número de documentos analizados exigen un análisis más detallado y requieren unos términos más específicos, y con ello se profundiza en la indización, tanto desde un punto de vista extensivo o intensivo. PRINCIPIO DE UNIDAD DE SENTIDO Establecido por Ritcher, y se puede formular de dos formas complementarias: • El término de indización no significa más de un concepto, lo que se refiere a que es indispensable evitar la homografía y la polisémica. • El concepto no puede ser representado más que por un término de indización, lo que hace referencia a la necesidad de controlar la sinonímia, no a la eliminación. Si no se observa este principio, se generará ruido y silencio en la etapa de búsqueda documental, ruido en el primer caso si se emplean términos polisémicos y silencio en el segundo caso, si se emplean sinónimos. Este principio hace referencia a la necesidad de valerse para la indización de un Lenguaje Documental, pero va más allá, a la carencia de la indización, cuando es utiliza un lenguaje documental, el nivel de coherencia es inferior al asequible, y oscila entre el 50 y el 80%. PARÁMETROS DE INDIZACIÓN Dado que la indización es un proceso doble, cuyo fin es la recuperación de los documentos o de los contenidos documentales por parte del usuario, se necesita partir de los resultados obtenidos en la recuperación para proceder a la evaluación y a la corrección, los parámetros de calidad de los sistemas documentales son varios: TASA DE COHERENCIA O CONSISTENCIA DE LA INDIZACIÓN 16
Se mide de la manera siguiente: Dos documentalistas o dos equipos de documentalistas indizan el mismo documento, o conjunto de documentos por medio de un mismo lenguaje documental, trabajando independientemente, no de otro. Una vez realizado el trabajo, se cuenta separadamente para cada documento, por una parte el número de términos de indización idénticos utilizados por los dos documentos y, por otra parte, el número total de palabras clave diferentes utilizados por los dos analistas, la tasa de coherencia es la ratio (división) entre estos números, si de los indizadores fueron utilizados 6 términos de indización comunes y un total de 12 diferentes estaríamos ante una tasa de coherencia del 50 %. Términos de indización comunes x 100 = % Términos de indización diferentes 6 = 0,5 X 100 = 50 % 12 Se puede medir de un mismo indizador en dos momentos diferentes la medida regular de la tasa de coherencia, permite un seguimiento de la calidad de información, un descenso de la cual, refleja un descenso de calidad, y será preciso indagar las causas de dicho descenso. La coherencia de la indización dependerá de los siguientes factores: • Formación indizador • Experiencia • Utilización o no de un Lenguaje Documental que le guíe en la indización. • tiempo que se disponga para realizarla. • Revisión de esta indización o no. TASA DE EXHAUSTIVIDAD O TASA DE RESPUESTA Mide la eficacia de la recuperación, es el resultado obtenido de la ratio (división) entre el número de documentos relevantes existentes en el sistema. Número de documentos relevantes encontrados x 100 = % Número de documentos existentes Ej.: 45 = 0,75 X 100 = 75 % 6 Si en el momento de la interrogación se encontraran 45 documentos de los 60 relevantes recogidos en ese centro. La dificultad de este indicador, radica en conocer el cociente (Número de documentos relevantes por respecto a una petición determinada existente en un fondo concreto). Se suele medir estas tasas sobre muestras representativas del fondo documental, en principio una exhaustividad muy alta en la indización, conduce a una alta respuesta o exhaustividad y también a una alta 17
tasa de ruido. TASA DE SILENCIO Es el inverso de la tasa de respuesta. Es el resultado de la ratio (División) del cociente entre el número de documentos relevantes no encontrados y el número de documentos relevantes existentes, si tenemos un total de 60 documentos relevantes para nuestra petición, y de ellos no recuperamos 15, tendremos una tasa de silencio del 25 %. Número de documentos relevantes encontrados x 100 = % Número de documentos relevantes existentes 15 = 0,25 x 100 = 25 % 60 En principio, una exhaustividad muy limitada producirá una tasa de silencia muy limitada. TASA DE RELEVANCIA Las dificultades para medir la eficacia de recuperación con las tasas anteriores, hizo surgir otro criterio, la tasa de relevancia, que consiste en la división entre el número de documentos relevantes encontrados y el número total de documentos recuperados. Número de documentos relevantes encontrados x 100 = %. Número total de documentos encontrados Si recuperamos 60 documentos, de los que 15 coinciden con nuestra petición, estaremos ante una tasa del 25 %. La tasa de relevancia varía en sentido inverso a la tasa de respuesta o exhaustividad, cuando esta tasa crece, la de pertinencia o relevancia decrece, si obtenemos una relevancia cercana al 100%, eso quiere decir que estamos obteniendo prácticamente todos los documentos que nos pueden interesar, pero no solo documentos relevantes, habrá también mucho ruido, si por el contrario, conseguimos acercarnos a una tasa de relevancia casi del 100 %, eso quiere decir que solo vamos a obtener documentos relevantes con respecto a nuestra petición, pero no todos. No es posible, por tanto, conseguir un sistema que proporcione una total exhaustividad, y a la vez una total relevancia, por tanto el indizador tendrá que ser consciente de la trascendencia de su tarea sobre la recuperación y deberá escoger entre favorecer la exhaustividad o favorecer la relevancia, con bastante frecuencia un usuario estará satisfecho si recupera varios documentos de un tema, siempre y cuando sean pertinentes, estén en la lengua/s solicitada/s, publicados en unas fechas determinadas y con un nivel de profundidad determinado, en este caso sería satisfactorio una mayor relevancia y una menor respuesta o exhaustividad, y para lograrlo el documentalista indizara la petición del usuario de forma específica, solicitando información sobre los conceptos más concretos de interés para el usuario. En otros casos, un usuario puede querer todos los documentos que traten un determinado tema, y entonces se buscará una alta exhaustividad, en detrimento de la relevancia de la respuesta, realizando una indización muy exhaustiva de la petición del usuario, de la que se extraerán conceptos y también conceptos más generales, existe una relación entre la relevancia y la exhaustividad en la recuperación y la profundidad dela indización en su doble vertiente de exhaustividad y especificidad. 18
En principio, una indización en la que es extraen solo los conceptos más específicos, y que estén bien desarrollados en los documentos, conduce a una baja tasa de exhaustividad, de una mayor tasa de relevancia y, por tanto, habrá silencio. Al contrario, una indización muy exhaustiva en la que se traten muchos conceptos, y esos conceptos en sus formas más concretas y en las más generales hace que se incremente la respuesta o la exhaustividad acosta de la relevancia, cuantos más temas secundarios sean indizados en un documento o en una demanda de información más documentos, serán recuperados, pero en muchos casos, pero en muchos casos, serán documentos que solo traten el tema marginalmente, se producirá, por tanto, mucho ruido, por esta razón la exhaustividad y especificidad de la indización, son responsables, en parte, de la relación inversa existente, entre la tasa de exhaustividad y la tasa de relevancia. TASA DE RUIDO Contrario a la tasa de relevancia. Número de documentos no relevantes encontrados x 100 = % Número total de documentos encontrados Si la tasa de relevancia es de un 25 %, la de Ruido será del 75 %. Fin tema 6 TEMA 7: SISTEMAS DE INDIZACIÓN Se entiende como el conjunto de procedimientos preescritos para organizar los contenidos de los registros de información a fin de su recuperación y difusión. Como señala María Pinto Molina, un documento engloba, generalmente más de un concepto cuya yuxtaposición conforma el tema, y esos conceptos se expresan formalmente a través de palabras. La indización puede llevarse a cabo sobre las palabras, sobre los conceptos o sobre los temas, dando lugar a tres sistemas de indización: • Indización por Unitérminos • Indización por descriptores • Indización por materias. INDIZACIÓN POR UNITÉRMINOS. Indización que se realiza a partir de palabras, es la más sencilla, porque se expresa con mucha facilidad los conceptos y los temas combinando las mismas palabras, pero presenta también inconvenientes, las palabras pueden carecer de significación propia o ser ambiguas, y además la combinación de unitérminos puede dar lugar a falsas combinaciones, y por tanto producir ruido durante la etapa de recuperación. Esta indización es libre, o derivada del texto, en ella se extraen los términos tal y como figuren en los documentos. INDIZACIÓN POR DESCRIPTORES Indizaciones controladas o asignadas que utilizan un lenguaje documental, los tesauros y las listas de encabezamiento de materia respectivamente, en estos dos sistemas (Descriptores y materias), los términos extraídos del documento se traducen por los aceptados en el lenguaje documental que el centro utilice. 19
La utilización de un lenguaje documental, posibilita búsquedas más precisas, dado que los lenguajes que utilizan guían al usuario en la búsqueda, permitiéndole conocer los términos o expresiones mediante las cuales se han indizado y almacenado los documentos de su interés. Tanto en la indización por unitérminos, como en la indización por descriptores, la combinación de las palabras o de los conceptos para expresar el tema de los documentos, se produce en el momento de la recuperación, y por ello se llaman sistemas de indización postcoordinados. Tienen la ventaja de que son más sencillos de utilizar que los precoordiandos, porque todos los unitérminos y todos los descriptores tienen el mismo rango jerárquico, lo que viene a decir que todos son tratados al mismo nivel, menos que se trate de una noción de materia geográfica o cronológica por todos ellos se puede recuperar el documento, la reconstrucción de las materias complejas pasa a ser tarea del que hace la búsqueda. El sistema de indización por descriptores, tiene ventaja sobre el sistema de unitérminos, porque evita la posible ambigüedad, porque no se basa en las palabras, sino en los conceptos, cada concepto serán términos de indización, en algunos casos constará de una sola palabra (sustantivo), y en otra de un sintagma nominal completo, ello permite evitar las falsas combinaciones, y como dice García Gutiérrez, supone un salto cualitativo importante, porque se pasa de la indización a partir del significante, la indización a partir del significado. En la etapa de búsqueda, el proceso de indización es el mismo que en la etapa de indización, se extraen los conceptos de la demanda del usuario y se traduce al lenguaje documental, en el caso de que se utilice, pero además en la indización postcoordinada existe una ultima etapa, que es la formulación de las preguntas bajo la forma de ecuación, en la indización postcoordinada, da el esfuerzo de síntesis, se ha desplazado hacia la búsqueda, el indizador se ocupa del análisis, y el que busca dela síntesis, esta formulación se efectúa con la ayuda de los operadores boléanos, del álgebra lógica, y también con la de cierto número de operadores sintácticos, como son los operadores de comparación a distancia, el truncado etc, pese a que la indización por descriptores es, en muchos sentidos superior (favorece la recuperación) a la indización por unitérminos, esta no solo se ha abandonado, sino que se ha visto potenciada con Internet, sus índices y sus motores de búsqueda fundamentalmente, también las bases de datos permiten búsquedas a partir de los unitérminos de los descriptores, encabezamiento de materia en los catálogos, títulos, resúmenes y del texto integro. La indización por descriptores, es la de mayor uso en las bases de datos, que junto a las referencias suelen ofrecer los descriptores y el resumen, y la de mayor uso en los Centros de Documentación. INDIZACIÓN POR MATERIAS Consiste el la correlación sucesiva de diferentes encabezamientos, cada uno representa un concepto que expresa el tema/s de un documento, es, por tanto, una indización precoordinada, porque la combinación entre los conceptos se produce en el momento de la indización, y su principal ventaja es que elimina cualquier riesgo de falsas combinaciones entre los términos, ya que cada cual ocupa su posición. Encabezamiento de materia − subencabezamiento de materia − subencabezamiento topográfico − subencabezamiento cronológico − bibliotecas − automatización − España − 1995− 2000 − Estadísticas. POSTCOORDINADOS Automatización/ Bibliotecas / 1.995 − 2000/ Estadísticas.
Indización Unitérminos
Palabras
Vocabulario Libre
Coordinación Postcoordinado
Uso Motores de Búsqueda 20
Derivada
(Búsqueda o recuperación)
Preecoordinado
Bases de datos, Centros de Documentación Catálogos
(Indización)
Bibliotecas
Controlado
Indización por descriptores
Conceptos
Indización por materias
Temas
Postcoordinado (Tesauros) Controlado (Listas de Encabezamiento)
Tiene también algún inconveniente, el fundamental es que cuando es necesario expresar varios temas, hay que utilizar y repetir los mismos conceptos varias veces, lo cual es muy engorroso. Otro problema, podía consistir en extraer los conceptos a utilizar para componer el tema, no es tan fácil saber ordenarlos correctamente, y más difícil que el usuario sea capaz de acertar con el orden en que esos conceptos sean situados, y de esa manera encontrar el documento requerido, esto hace que tradicionalmente la recuperación por medio de encabezamientos de materia, haya sido complicada, porque solo era posible acceder a las materias por el encabezamiento principal, las búsquedas tenían que ser realizadas secuencialmente. Los encabezamientos de materia fueron ideados como descripciones temáticas que el usuario fuese capaz de identificar más que de formular. • Biblioteca pública − Automatización − España − 1.995 − 2000 − Estadísticas. • Biblioteca Universitaria − Automatización − España − 1.995 − 2000 − Estadísticas. La indización por materias, en las fichas tradicionales, los encabezamientos de materia, se hacen constar en el asiento principal, al final de la descripción bibliográfica, numerado en cifras arábigas, y en una segunda serie, antes de los encabezamientos secundarios, relacionados con la catalogación formal y numerados con cifras romanas, los asientos del catalogo de materias se forman anteponiendo el encabezamiento de materia al punto de acceso del encabezamiento principal. Fin Tema 7 TEMA 8 : LA NORMALIZACIÓNY LA AUTOMATIZACIÓN DE LA INDIZACIÓN. LOS ÍNDICES En cuanto a la normalización de la indización, esta se ha orientado en un doble sentido, en lo que se refiere a la indización en lenguaje natural, la UNESCO mediante su programa UNISIST, ha desarrollado acciones encaminadas a aumentar el número de diccionarios científicos y técnicos disponibles, y a fomentar la normalización de la terminología científica. Por su parte, la ISO ha dictado normas sobre la presentación de las palabras clave, que serán idénticas a las que rigen para los descriptores. • palabra clave, si es Unitérmino (una sola palabra). • Será sustantivo, ante la generalidad de conceptos se elegirá el genero predominante, y si no hay predominio el masculino. • En cuanto al número, se elige el plural cuando sea posible, normalmente posible en los sustantivos contables. • Como regla general, se elige la forma desarrollada de los nombres. • Se utiliza la secuencia lineal normal, se evita el realizar inversiones. • Entre sinónimos, se procura utilizar la expresión más comúnmente usada, y la grafía más frecuente. Por lo que se refiere a la normalización de la indización, el lenguaje controlado, tanto UNESCO como ISO, y las organizaciones normalizadores nacionales, han publicado principios de construcción y presentación de tesauros, también algunos casos, como el Español, aparecen normativas para la redacción de encabezamientos de materia, como la realizada en 1.991 por la Biblioteca Nacional Española, que se titula Encabezamiento de 21
materia. Normativa para su descripción, publicada por el Ministerio de Cultura en 1.991, estos esfuerzos en el campo de la indización no son muy efectivos, aun queda bastante por hacer, en cuanto a la normalización, dado que la misma proliferación de listas de encabezamiento, y sobre todo de Tesauros en las dos últimas décadas, va contra cualquier normalización y dificulta el intercambio de la información. INDIZACIÓN AUTOMATIZADA El método humano de indización es más preciso que el método automático, porque el ser humano tiene la capacidad de leer en contexto, de improvisar y de adaptarse a lo nuevo, por su menor rapidez y porque requiere mucho personal, resulta mucho más costoso que el método automático. Según Van Slype, la indización automática es la operación que consiste en el reconocimiento por el ordenador de los términos que figuran dentro del título, del resumen, del texto completo, en el caso de que se haya almacenado en la base de datos, a veces también dentro de la indización humana, y a continuación emplea estos términos, o bien tan cual, o bien después de transformarlos en otros términos equivalentes o conceptuales próximos, con el fin de convertirlos en elementos que se incorporan al fichero de búsqueda, y quedan disponibles para recuperar el documento. Los sistemas de indización son sistematizados por Antonio García Gutiérrez de la manera siguiente: • Sistemas de indización automatizada mediante calculo frecuencial: Son los primeros en aparecer, y consisten en la captación simultanea de los términos de un texto y en contabilizar sus repeticiones dentro del mismo texto, y con respecto a otros textos ya integrados en memoria. Problemas: • Solo funcionan bien en campos temáticos, donde la terminología es muy estable y unívoca. ◊ Funcionan muy mal en los ámbitos de las Ciencias Humanas y de las Ciencias Sociales, por las razones contrarias, se utilizan muchos sinónimos. ◊ El hecho de que un término se repita es síntoma en un 100% de su relevancia, se pueden encontrar repetidos muchos términos que después no representan conceptos que estén suficientemente desarrollados, estos métodos estadísticos tienen, sin embargo, valor si van acompañados de otros recursos semánticos y lógicos. • Sistemas de indización automatizada que utilizan léxicos para la indización, recursos semánticos o de contenido: Estos sistemas consisten en utilizar para la indización un listado de términos de mayor o menos complejidad que estará grabado en la memoria del ordenador y que permitirá comparar los términos de los documentos con los términos almacenados. Dentro de este sistema, existen algunos de mayor complejidad que otros, es el sistema más sencillo, pero también es el menos eficaz, consiste en la utilización de términos Stop, en este caso la memoria se nutre con partituras del léxico, articulo, preposiciones, conjunciones, adverbios etc. Con este listado, el ordenador a la hora de indizar un documento omite estos elementos en su lectura lineal, al contrastar los términos del documento con el fichero de términos Stop, de esta manera se evitan la extracción de cientos de términos desprovistos de significación, pero obviamente el resto de los términos existentes en el documento, puede tener significación pero puede no ser relevantes, y por tanto el problema persiste. • Introducir en el sistema del ordenador un antidiccionario: Este antidiccionario consistiría en un glosario negativo. Además de los términos stop (no sustantivo), se inscribirán además, todos aquellos sustantivos que con total seguridad no interesan para la indización de documentos de manera determinada, se suele eliminar de algún diccionario o léxico los términos que pueden ofrecer algún interés y volcar el resto en la memoria del ordenado, de esta manera cuando el ordenador procede a su memoria lineal del documento, compara los términos del texto con los que se encuentran en el antidiccionario, solamente cuando ese término esta ausente de ese antidiccionario, el ordenador 22
procede a identificar como posible palabra clave, después se extraerá como palabra clave si su frecuencia es la que se ha establecido en el sistema. Problemas: ♦ Además de la complejidad que supone la fabricación del antidiccionario, existe una ausencia en el significado que esa palabra sea relevante sin más. ♦ Los sinónimos aparecen como distintos conceptos. ♦ El usuario no tiene forma de saber cuando vaya a interrogar al sistema, cuales son los términos que debe utilizar, es decir, los mayores problemas que presenta proviene en que se basa en la coincidencia de significantes, no de significados, con lo cual en campos con poca estabilidad temática los resultados son bastante mejorables. • Utilización de lenguajes combinatorios: Normalmente suelen ser tesauros. Supone la incorporación en la memoria del ordenador de un glosario de términos útiles, para la indización de campo temático determinado, aquí se introducen los conceptos que se prevén útiles, y además se dotan de relaciones entre ellos, de manera que se consideren todos los sinónimos y se relacionen los conceptos jerárquicamente y de manera asociativa, como realización los lenguajes documentales. Ventajas: ♦ El ordenador podrá considerar ya los distintos sinónimos como un único concepto, y podrá extraerlo aunque haya recibido diferentes denominaciones. ♦ Mediante este sistema, el ordenador captará solamente aquellos términos admitidos por los diseñadores del sistema, sin embargo, el hecho de que un concepto figure en un tesauro, que se utiliza para la indización de un área completa, no significa que en ese concepto sea relevante en el documento completo que se está indizando, incluso este concepto sea relevante en el documento completo que se está indizando, incluso este concepto frustrará a muchos, porque extraen documentos en los que efectivamente se encuentra el concepto buscado, pero bien sin un desarrollo suficiente, o bien en contexto no deseado, ni siquiera un tesauro es suficiente para ayudar al ordenador a captar el sentido o importancia significativa, pero supone un paso adelante respecto a los sistemas anteriores, suponen un problema de sinonímia y de los términos a utilizar por parte del usuario, ya que este puede consultar el tesauro antes de realizar la búsqueda. Problemas: ◊ Complejidad para la construcción del tesauro. ◊ Coste elevado. • Utilización de mecanismos lógicos: Estos pueden ser, por ejemplo, los sistemas de ponderación conceptual, existe software suministrado con capacidad complementaria, que es la de reconocer la valoración del concepto extraído en escalas codificadas, aunque la ponderación la realiza normalmente el ser humano, este sistema permite evitar algunas decepciones al recuperar información, ya que si la escala valorativa, ya que si la escala valorativa es, por ejemplo del 1 al 10, y se solicitan conceptos a partir del nivel 8, se recuperan documentos donde ese concepto este bien desarrollado cuantitativa y cualitativamente. Hoy en día la investigación camina hacia métodos de análisis basados en la significación, los desarrollos en el campo de la indización automática vendrán de los avances de la ciencia del texto que consigan captar y explicar el texto desde el plano de la significación. La forma y la expresión, aunque importantes, son meros canales para acceder al sentido. Los enunciados, las frases incluso pueden ser perjudiciales para los resultados del análisis, pues contienen metáforas y en general muchos usos coyunturales de la terminología que condicionan la condición que un ordenador puede hacer del texto. Es necesario, por tanto, un método que permita homologar los resultados de los distintos analistas, y de los sistemas automáticos. Para ello, se tienen que resolver dos cuestiones: • Que se puedan detectar las propuestas principales del autor en ese documentos. • Se puedan a continuación seleccionar. Todos los avances en indización automática deberán abandonar los métodos de estructura lineal basada en el significado, el ordenador tendrá que ser capaz de seleccionar término, no por su 23
presencia en el texto solamente, sino por su valor en el contexto del documento en que se encuentra y tendrá que ser capaz también de determinar conceptos con significantes ausentes del texto, es decir, tendrá que ser capaz de extraer conceptos implícitos en un documento, aunque no se encuentre nombrados en él. LOS INDICES El producto de la indización son los índices. Rouly define los índices como una serie ordenada de puntos de acceso que conducen desde la información conocida por el usuario a una información adicional previamente desconocida. Su objetivo será contribuir a la recuperación de los documentos almacenados. La mayor parte de los índices son alfabéticos, también de materias, de autores, de lugares, cronológicos ...Entre los principales índices destacan: KWIC KWOC DE CITAS
Key Word in context Key Word Out of Context
KWIC: Hace aparecer cada palabra significativa normalmente del título o del descriptor, en una lista alfabética con permutación del título para que la palabra seleccionada esté siempre en la misma posición precedida y sucesiva por la que forman el contexto. KWOC : Es un sistema en el que las palabras significativas del título o del descriptor se sitúan en orden alfabético como encabezamiento que irá en orden normal de presentación. DE CITAS: Son índices en que cada autor se citan sus propios trabajos y en cada trabajo se añaden los lista de los nombres y las obras que lo citan. DIFERENCIA ENTRE ÍNDICE KWIC E INDICE KWOC Manual de Análisis Documental: fundamentos y procedimientos Información Documentación. El análisis Documental Fundamentos y procedimientos. El Resumen Documental Principios y métodos. Manual de Infor Y Documentación Resumen Documental: Principios y métodos. KWOC El término significativo se extrae. ANÁLISIS Análisis documental: fundamentos y procedimientos. DOCUMENTACIÓN Manual de Información y Documentación. 24
DOCUMENTAL El análisis documental: fundamentos y procedimientos. El Resumen documental: principios y métodos Fin Tema 8 TEMA 9: LA DESCRIPCIÓN SUSTANCIAL Y LA INDIZACIÓN DE DOCUMENTOS VISUALES Y AUDIOVISUALES. De entre los documentos no bibliográficos, es decir, que no utilizan la escritura como medio de expresión, se distinguen dos grandes apartados, que se diferencian por la forma en que el receptor percibe el mensaje del documento: ♦ DOCUMENTOS VISUALES: Son sincrónicos, es decir, presentan toda la información de una vez. ♦ DOCUMENTOS SONOROS: Son diacrónicos, es decir lineales o secuenciales, presentan la información a lo largo de un periodo determinado. Existiría entre ambos, un tipo intermedio, que es el constituido por los documentos audiovisuales que serían mixtos en su composición, entra a formar parte tanto la imagen como el sonido, y por tanto son diacrónicos o lineales. Por lo que se refiere a los documentos sonoros, su tratamiento es similar al que se utiliza para los documentos bibliográficos, dado que el código de estos documentos es la lengua, y por tanto el mismo código que el de los documentos bibliográficos. Para resumir o indizar un documento sonoro, solamente hay que convertir el discurso hablado a discurso escrito, y proceder a continuación con las mismas técnicas que se utilizan para resumir o indizar documentos bibliográficos. La única dificultad que presenta los documentos sonoros, es la utilización necesaria de aparatos que nos permita detener el discurso, dar marcha atrás, volver a escucharlo etc. Por el contrario, la imagen requiere procedimientos propios para su tratamiento, debido a que el código distinto al código verbal que utilizamos mayoritariamente para comunicarnos los seres humanos, en este caso se trata de un código icónico que habrá de traducir el código verbal, y ello presenta bastantes peculiaridades y complicaciones, la imagen requiere procedimientos propios, por que esta menos codificada, y contiene en general información menos evidentes o menos concretas. PECULIARIDADES DE LA IMAGEN ♦ Cualidad sintetizadora o sincrónica: Una imagen es de por si, un resumen, porque como hemos dicho, la imagen presenta toda la información a la vez. ♦ La imagen es transporte: Es como un espejo, muestra la realidad tal y como es. ♦ Flexibilidad o adaptabilidad: La imagen puede servir para ilustrar en muchos más contextos que un texto escrito. ♦ Polisémica: Dado que es flexible, es muy propensa a las divergencias interpretativas. En virtud de la separación existente entre lo que lo imagen denota y lo connota. CONDICIONANTES DE INDIZACIÓN DE DOCUMENTOS VISUALES Y AUDIOVISUALES
25
Las imágenes son signos icónicos, aparentemente poco codificados, su interpretación depende de unos factores: • Esfera cultural del analista, y del poder evocador que las imágenes le sugieren. • Del contexto en que se encuadre la imagen: Si pertenece a una serie o reportaje, esa serie condiciona el análisis de la imagen individual, pues la impregna con significados comunes que no aparecerán necesariamente en cada una de las imágenes. • Texto que acompaña a la foto o sonido que acompaña a la secuencia, dado que ambos ayudan a dar una dirección determinada de interpretación. METODO DE INDIZACIÓN DE LAS IMÁGENES El análisis de contenido de una imagen, se articula en dos niveles diferentes: • ANÁLISIS MORFOLÓGICO: De los aspectos técnicos y compositivos de la imagen, que son fundamentales a la hora de la recuperación, ya que define el tipo exacto de estructura de la secuencia o de la foto, y ello determina que sirva o que no sirva para el uso que el especialista gráfico del periodo o realizador de televisión necesiten. • ANÁLISIS DEL CONTENIDO PROPIAMENTE DICHO: El primer paso a dar, es traducir ciertos elementos de esa imagen, desde un código icónico a un código verbal, lo que plantea perdidas de significado, dado que no existe imágenes de conceptos, sino imágenes de realidades, la dificultad con la que nos encontramos, es que debemos nombrar aquello que estamos viendo, es decir, traducir imágenes de realidades concretas a conceptos, y ello supone perdidas de significado, implica que el análisis de las imágenes, sea siempre completo, porque el paso de un medio a otro supone una selección dentro de las casi inagotables posibilidades del documento en imagen. Este análisis tiene como dificultad, que hay que reconocer y nombrar lo que aparece en la imagen, tarea a veces complicada, porque además se trata de nombrar ese objeto, sin posibilidad de recurrir al documento, y derivar de los términos que representan a los conceptos seleccionados, como sucede con los documentos escritos. En segundo lugar se procederá a una lectura descriptiva de la imagen para identificar lo denotado por ella, la analogía que existe entre la imagen y el referente que de ella tiene el indizador permite al observador identificar el contenido. El método de análisis a realizar debe permitir señalar personajes, lugares, tiempos y acciones, es decir, se debe preguntar quien aparece, que, como, donde y cuando. En tercer lugar, dado el carácter polisémico de la imagen, se atenderá a la connotación, aquello que no aparece en la imagen, pero que la imagen sugiere. En cuarto lugar, atender al contexto, marco de referencia en el que se sitúa la imagen, ese contexto vendrá indicado por el texto que acompaña a la foto, por el sonido que acompaña a la secuencia, este limitará en cierta medida las posibilidades interpretativas de la imagen. En quinto lugar, tras analizar la imagen, su denotación, connotación y contexto, habremos obtenido unas nociones y conceptos representativos de su contenido que se traducirá en palabras clave de carácter onomástico, geográfico, cronológico y temático, dentro de las temáticas (abstractos, objetos o personas, actitudes), para el análisis de la imagen, debido a su complejidad, es de gran utilidad los formatos que evitan el olvido en la extracción de datos de interés. Tema Página 41 de 41
26