MOTORES DE BUSQUEDA:

Resumen MOTORES DE BUSQUEDA EN INTERNET Teleinformática y Redes Universidad Nacional de Luján Fabio Alexis Manso e-mail: [email protected] Dire

1 downloads 105 Views 49KB Size

Story Transcript

Resumen

MOTORES DE BUSQUEDA EN INTERNET

Teleinformática y Redes Universidad Nacional de Luján Fabio Alexis Manso e-mail: [email protected] Dirección: Belgrano 756 - Luján - 6700 Teléfono: (02323) - 432489

Resumen Este documento describe la arquitectura y funcionamiento de los motores de búsqueda en Internet, se presentan comparativas entre diferentes motores y se especifica que son y como trabajan los metabuscadores. Los motores de búsqueda son herramienta que basan su funcionamiento en palabras clave que tienen el objetivo de recoger los recursos disponibles en Internet de manera automatizada para formar una gran base de datos. Los metabuscadores son sistemas que van más allá de los buscadores, admiten una consulta y se encargan de enviarla a los diferentes sistemas de búsquedas públicos que hay en Internet. [1] Introducción Los motores de búsqueda se encargan de realizar búsquedas dentro de una base de datos, que puede haber sido recopilada por un robot, o bien puede ser un índice recopilado manualmente. En cualquier caso, el motor de búsqueda recibe la interrogación del usuario, que consiste en una o varias palabras, realiza la búsqueda en la base de datos, y extrae una lista ordenada de documentos que cumplen entera o parcialmente con la interrogación. El metabuscador basa su búsqueda en los buscadores que tiene disponibles y que previamente se ha solicitado el permiso pertinente. No disponen de base de datos propia. Los metabuscadores son meros intermediarios entre los usuarios y los buscadores. Cada buscador tiene características específicas y esto dificulta la integración.

MOTORES DE BUSQUEDA: Un motor de búsqueda se podría definir como una herramienta que basa su funcionamiento en palabras clave que tienen el objetivo de recoger y generar índices a los recursos disponibles en Internet de manera automatizada para formar una gran base de datos. [5] Componentes de un motor de búsqueda: 1. Un robot es un programa residente en una máquina conectada a Internet que recupera de forma automática los títulos, las cabeceras y/o el texto de las páginas Web. A partir de estos elementos genera unos índices de palabras clave que se pueden buscar desde los clientes WWW. Es el encargado de crear un listado de direcciones URL, acceder y leer los documentos contenidos, y mantener el listado de direcciones. Cuando un robot entra en un nuevo servidor, busca un fichero file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (1 of 9) [10/11/2001 8:52:23 AM]

Resumen

que se llama robots.txt, en el que se le indican los directorios permitidos y los prohibidos. Si este fichero no existiera, los considera a todos permitidos. [4] 2. Una Base de datos que contiene información derivada de las páginas analizadas por el "robot". 3. Un sistema automático de análisis de contenido e indexación de los documentos localizados. 4. Un sistema de interrogación, que se basa generalmente en álgebra de Boole. Esta compuesto por un conjunto de órdenes que permiten buscar registros que contengan uno o más términos, simples o compuestos, en la estructura de almacenamiento de un sistema de información. 5. Un programa que actúa de enlace entre el servidor de documentos web y la base de datos. El motor de búsqueda recibe la consulta del usuario, formada por una o más palabras, realiza la consulta a la base de datos y ofrece un listado ordenado de documentos que cumplen parte o el total de los requisitos de interrogación. El lenguaje de búsqueda está formado por diferentes tipos de operadores: [8] Los operadores lógicos utilizando "álgebra de Boole". Las operaciones más conocidas que se pueden realizar son tres: suma o unión (and, +), producto lógico o intersección (or) y exclusión (no, -). Los operadores de comparación son los utilizados para especificar el rango de una búsqueda, en términos numéricos o alfabéticos. La utilización de máscaras y del truncamiento es la que se realiza mediante el signo de interrogación (¿) para un carácter o el asterisco (*) para un grupo de éstos. Los operadores de proximidad acostumbran a ofrecer un contexto mayor en el que se realiza la búsqueda. La especificación de campo es la que está formada por sufijos y prefijos que se añaden al descriptor para limitar el campo de búsqueda. [6] Los Motores de Búsqueda son también conocidos como Servicios de Búsqueda en Internet. [1] Se pueden distinguir tres tipos: ❍ Motores de Búsqueda verdaderos. ❍

Directorios.



Motores de Búsqueda híbridos.

La diferencia se encuentra en la forma en que se obtienen y organizan la información: [2] Motores de Búsqueda verdaderos: operan haciendo un barrido de la Web, unos programas llamados "arañas" o "robots" exploran la red navegando por las diversas páginas y con la información que recogen generan los índices de búsqueda. Estos índices serán los que otro programa consulte cuando un usuario requiera una información. Directorios: dependen básicamente de personas para obtener sus listados. Se les envía información con una descripción corta del contenido del sitio o en muchos casos tienen personas que se encargan de revisar sitios y de incluirlos dentro de sus listados. Los cambios que se realicen en las páginas no tendrán ninguna influencia sobre la forma en que los sitios aparecen listados por los Directorios. Se tratan de una guía jerárquica de temas o áreas que abarca desde lo más general a lo más particular. Cuando buscamos por una palabra o frase un índice tiene en cuenta cuatro características para decidir que resultados va a mostrarnos: ● ● ●

Titulo: es la palabra clave en el titulo del sitio Web. URL: es la palabra clave en el URL del sitio Web. Descripción: es la palabra clave sobre la descripción del sitio web.

"Clics": algunos directorios consideran relevante el número de veces que sus clientes pinchan en su enlace a una web.

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (2 of 9) [10/11/2001 8:52:23 AM]

Resumen

Motores de Búsqueda Híbridos: utilizan un Directorio asociado; en estos casos además de hacer un barrido por los diferentes sitios de la Web, tienen personas que se encargan de revisar sitios y de hacer su propia descripción del mismo.

Arquitectura de un motor de búsqueda. [5]

Estructura de los Motores de Búsqueda: [6] Los Motores de Búsqueda están compuestos por tres elementos principales: ● Araña. ● ●

Indice. Software.

La Araña es un programa que los buscadores usan para rastrear la red. Se encarga de visitar los diferentes sitios del Web, en su proceso accede una página, la lee, y luego accede los sitios a los cuales se tengan enlaces dentro de dicha página. El índice recibe toda la información obtenida por la Araña. Pueden mantenerse como directorio o bien ser introducidos también en una base de datos para permitir que se realicen búsquedas. El Software, cuya función es extraer la información cuando se realiza una búsqueda, y para ello hace un

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (3 of 9) [10/11/2001 8:52:23 AM]

Resumen

recorrido por todas las páginas buscando la información solicitada, y entregándola teniendo en cuenta un orden de relevancia. Componentes de un motor de Búsqueda Araña Programa de software que los buscadores usan para rastrear la red.

Indice Recopila y guarda la información obtenida por la Araña

Software Encargado de recorrer el índice en busca del la información necesaria

COMPARATIVAS ENTRE BUSCADORES:

LYCOS Generación de índices y otras características: Lycos genera el índice con el título, cabecera del documento, cabeceras y subcabeceras, enlaces, las 100 palabras más utilizadas en el documento y las primeras 20 líneas. Parte de su base de datos no está totalmente indexada sino que únicamente tiene el título y el URL. Criterios de ordenación en Lycos: ● Número de veces que aparece la palabra buscada. ● ●

En qué campos aparece. Número de veces que este documento está referenciado por otros.

Lycos asocia una puntuación de 1 a 1000 a las páginas, basada en los criterios anteriores. Lycos no permite muchos refinamientos en las búsquedas. Por defecto busca dentro del WWW, y de servidores Gopher y FTP. Las posibilidades que ofrece son: ● Utilizar el signo "-" inmediatamente delante de una palabra para obligar a la ausencia de una palabra en la búsqueda. ● ●

Un punto inmediatamente detrás de una palabra buscará la coincidencia exacta. El símbolo $ se puede utilizar como comodín.

Lycos está formado por un potente robot que explora el Internet diariamente, recogiendo unos 5000 documentos, generando índices a las páginas y actualizando la base de datos. Permite realizar la búsqueda de cualquier tipo de documento multimedia, ya sea imagen, vídeo o sonido. El principal defecto que tiene son las pocas opciones de búsqueda booleana.

INFOSEEK Generación de índices y otras características: Criterios de ordenación en Infoseek: ● Número de veces que la palabra o frase aparece en la página ● ●

Las palabras muy usuales generan puntuación menor que las poco usuales. Las frases generan mayor puntuación que las palabras sueltas.

Infoseek asocia una puntuación de 0 a 100 a las páginas, basada en los criterios anteriores. En la lista de resultados, cada página listada tiene asociada esta puntuación, que indica cuánto se acerca la página a la

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (4 of 9) [10/11/2001 8:52:23 AM]

Resumen

búsqueda deseada. Infoseek coincide con Altavista en muchos puntos de la nomenclatura para realizar búsquedas. Agrupar palabras para formar una frase se puede hacer con comillas. Con los signos + y - inmediatamente delante de palabras se obliga a su presencia o ausencia en la búsqueda. También distingue mayúsculas de minúsculas si encuentra alguna mayúscula. Por otro lado, permite utilizar paréntesis para encerrar palabras que deben encontrarse a menos de 100 palabras entre ellas. En cuanto a los acentos, parece que trata como caracteres distintos los acentuados de los no acentuados, pero con el sistema que tiene de sacar palabras "similares" también encuentra las palabras acentuadas, aunque no en los primeros lugares. Teniendo en cuenta que muchas veces las palabras se escriben sin acentos, el sistema de Altavista es mejor en este caso concreto, ya que al ponerse la palabra sin acento la busca tanto acentuada como no. Los resultados de la búsqueda también tienen información complementaria muy valiosa, que son los Related topics. Otro punto interesante es que te permite realizar otra búsqueda únicamente en los documentos encontrados en la primera (en el campo de búsqueda que se encuentra al pie de página). En la primera búsqueda, se puede elegir dónde se puede realizar: en el WWW, en las News, o entre las Web FAQs. El aspecto más interesante que presenta es que su robot genera un índice de forma automática a todas las palabras contenidas en una página web, exceptuando los artículos y las proposiciones. Los resultados se ordenan por orden de relevancia, cosa que nos indica que es conveniente introducir el máximo de palabras posibles para obtener una mejor búsqueda. El principal defecto que presenta es que no permite la utilización de operadores booleanos ni truncados.

ALTAVISTA Generación de índices y otras características: Criterios de ordenación en Altavista: ● Las palabras o frases requeridas se encuentran en las primeras palabras del documento. ● Cuanto más cerca se encuentren entre sí las palabras o frases requeridas. ●

Cuantas más veces aparezcan las palabras o frases solicitadas.

Altavista genera el índice a los primeros 1024 caracteres de cada documento. Mantiene una gigantesca base de datos con un índice de más de 30 millones de páginas Web y 12 millones de "palabras". Utiliza un potente robot que inspecciona más de tres millones de páginas diarias y posee un potente programa de generación de índices. Las consultas pueden ser de dos tipos: simples y avanzadas, en ambos casos el sistema dispone de una completa página de ayuda. Permite consultas booleanas, truncamientos, búsqueda en partes de los documentos, de imágenes, servidores, enlaces, etc. Altavista considera las frases como palabras separadas por espacios. Para que considere una frase completa, debe encerrarse entre comillas, o bien sustituir los espacios entre las palabras por ";". Cuando las palabras clave se introducen en minúsculas, Altavista buscará esas palabras tanto en minúsculas como en mayúsculas; mientras que si se introduce alguna letra en mayúscula, buscará la coincidencia exacta. Los operadores básicos que podemos usar son: comillas, mayúsculas y minúsculas, incluida (+), eliminar (-) y comodín (*).

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (5 of 9) [10/11/2001 8:52:23 AM]

Resumen

Se pueden acotar los aciertos por fechas, con los operadores and y or (similares a + y -) y con frases de búsqueda más complejas. Se puede forzar con palabras requeridas o prohibidas, poniendo delante de la palabra un + o un respectivamente. Se puede utilizar el * como comodín, por ejemplo para buscar palabras derivadas de un mismo origen. OpenText Generación de índices y otras características: Contiene más de 1 millón de páginas en texto completo, con un aumento de unas 50.000 páginas diarias y más de 16 millones de direcciones. Recoge recursos FTP, gopher, web y newsgroups. Permite tres tipos de consultas diferentes, desde la más sencilla a la más avanzada. Se caracteriza por la facilidad de uso, flexibilidad y sofisticación. Ofrece una opción innovadora en la consulta del Power Search que permite limitar la búsqueda por los campos siguientes: título, cabecera, sumario de la página y URL. También genera índices para la totalidad del texto; permite hasta cuatro operadores booleanos o de proximidad por consulta, detecta los duplicados, ofrece un rankeo de relevancia y permite truncar los términos automáticamente. Recoge recursos en japonés, español y portugués.

YAHOO Generación de índices y otras características: La generación de índices de las páginas en Yahoo es manual. El usuario solicita a Yahoo la inclusión de una página y propone en qué directorio del índice. En la solicitud se incluye el título del servidor y una breve descripción. Estos dos campos son los únicos en los que se basa el motor de búsqueda de Yahoo. Los resultados no vienen ordenados según una puntuación, sino en el orden en que se encuentran en el directorio. Al tener un índice jerárquico, no solo nos permite hacer búsquedas concretas, sino también navegar buscando por temas. Si buscamos un servidor en particular, o una página en particular, hay que utilizar la búsqueda, rellenando el campo y enviándolo. Si no buscamos un servidor en concreto sino todo lo relacionado con cierto tema, se va a través del índice jerárquico a buscar el tema deseado. Teniendo en cuenta la gran extensión del índice, a veces interesa combinar ambos métodos. Yahoo busca las palabras solicitadas dentro de las categorías, títulos y descripción de las páginas listadas. Los resultados de búsquedas contienen tres tipos de información: ● Categorías en Yahoo que cumplen el criterio de búsqueda ● ●

Servidores o páginas que cumplen el criterio Categorías de Yahoo donde estas páginas están listadas.

Al ser un índice jerárquico, se le proporciona al usuario la posibilidad de consultar otras páginas listadas en el mismo directorio de temática similar, y por tanto constituye una ventaja respecto a las búsquedas en bases de datos recopiladas por robots. Si Yahoo no encuentra nada relacionado con la palabra solicitada en su base de datos, realiza una conexión automática con Altavista con la misma solicitud, y al usuario le aparecen los resultados de la búsqueda en Altavista. En el árbol de búsqueda, Yahoo cataloga de forma prioritaria los FAQ (documentos de preguntas frecuentes) y los recursos que contienen índices de cualquier tipo.

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (6 of 9) [10/11/2001 8:52:23 AM]

Resumen

Alianzas de algunos de los principales buscadores. Yahoo

Resultados principales provistos por propia base de datos. Resultados secundarios provistos por Google, Altavista.

Altavista

Resultados principales de su propia base de datos. Algunos resultados de LookSmart. Algunos resultados de Open Directory.

METABUSCADORES: Realizada la descripción acerca del funcionamiento de los buscadores, la creación de nuevas herramientas para ofrecer nuevos servicios y cubrir las diferentes necesidades de los usuarios en la recuperación de la información fue bastante rápida. La gran cantidad de información y el notable aumento de buscadores accesibles en la Internet acabó en la posibilidad de realizar diferentes búsquedas con diversos buscadores simultáneamente con una única estrategia de búsqueda. Hay que tener en cuenta que cada buscador tiene sus características específicas y esto dificulta su integración. El metabuscador basa su búsqueda en los buscadores que tiene disponibles y que previamente han acordado y solicitado el permiso pertinente. Su principal característica es la de no disponer de base de datos propia. Los metabuscadores son meros intermediarios entre los usuarios y los buscadores. Estos sistemas van más allá de los buscadores, admiten una consulta y se encargan de lanzarla a los diferentes sistemas de búsquedas públicos que hay en Internet. Ofrecen detalles de las respuestas de cada uno de los servicios, o bien el listado completo de coincidencias. [3] El tiempo de espera también es un factor importante que algunos permiten precisar. Hay que tener en cuenta que si el tiempo definido es demasiado corto el resultado seguramente no será tan exhaustivo. Algunos ofrecen a partir de una previa selección de índices temáticos, unos motores especializados que se adaptan al perfil de la consulta, mejorando la eficacia de la búsqueda. [8] Arquitectura de un Metabuscador: [7] El metabuscador toma como entrada palabras claves y el número de documentos que pueden ser mostrados por cada base de datos. El usuario puede seleccionar las bases de datos desde donde quiere que se busque la información. El usuario puede seleccionar una o más bases de datos. El usuario también puede especificar el número de documentos que deberían ser mostrados por cada base de datos en la página de resultados. Cada base de datos tiene sus propias reglas. Por ejemplo, algunas bases de datos no soportan AND y OR. Si el usuario ingresa palabras claves las cuales no son soportadas, el resultado no será mostrado. Haciendo clic en el link de ayuda de la página principal, el usuario puede ver la información acerca de las palabras claves que son soportadas por cada base de datos. El usuario hace clic en el botón de búsqueda después de ingresar las palabras claves, el número de documentos y haber seleccionado las bases de datos. Luego el programa lee el archivo Metafile.txt. El contenido del archivo por cada base de datos o motor de búsqueda. 1. El nombre de la base de datos o motor de búsqueda. 2. El URL de la base de datos.

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (7 of 9) [10/11/2001 8:52:23 AM]

Resumen

3. El punto de inicio. 4. El punto de finalización.

Arquitectura de un metabuscador standard. [7] MetaCrawler: es el ejemplo principal de metabuscador. Al hacer una consulta, conecta con OpenText, Lycos, Webcrawler, InfoSeek, Excite, Inktomi, AltaVista, Yahoo y Galaxy , devolviendo por omisión las diez primeras coincidencias de cada uno de los servicios. Se puede personalizar por tiempo máximo de espera, aciertos o región, así como usar búsquedas booleanas. Dos Metabuscadores y sus servicios asociados: Metabuscador

Base de Datos

MetaCrawler

OpenText, Lycos, Webcrawler, InfoSeek, Excite, Inktomi, AltaVista, Yahoo y Galaxy.

Ixquick

AltaVista, Excite, HotBot, MSN, Yahoo.

Referencias: [1] Searching the World Wide Web. Steve Lawrence and C. Lee Giles. Science, 1998. [2] Accessibility of information on the web. Steve Lawrence and C. Lee Giles. Nature, 1999. [3] Managing gigabytes: compressing and indexing documents and images. Van Nostrand Reinhold, New York, 1994. [4] Optimal robot scheduling for web search engines. E. G. Coffman, Jr., Zhen Liu, and Richard R. Weber. Technical report, INRIA, 1997 [5] Searching the Web Arvind Arasu, Junghoo Choo, Hector Garcia-Molina, Andreas Paepcke, Sriram Raghavan. Computer Science Department, Standford University. [6] Evaluating the Cost of Boolean Query Mapping.

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (8 of 9) [10/11/2001 8:52:23 AM]

Resumen

Chen-Chuan K. Chang, Héctor García-Molina. Standford University. [7] Metasearch Engine for NWRC final Report. Swathi Chitteddi. [8] Boolean Query Mapping Across Heterogeneous Information Sources. Kevin Chen-Chuan Chang, Héctor García-Molina, Andreas Paepcke.

file:///C|/WINDOWS/Escritorio/zzz/Monografia de Motores de Busquedad en Internet.htm (9 of 9) [10/11/2001 8:52:24 AM]

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.