• Etiquetas: recuperación de la información (i.r.)
Tesis doctoral de Francisco Javier Martínez Méndez para la formalización de un marco de análisis y evaluación de motores de búsqueda web. Un documento impresionante por su exhaustividad e integración.

Tesis de grado elaborada por Tiago Rodrigo Marçal Murakami (Escola de Comunicações e Artes da Universidade de São Paulo, Brasil, 2005) que realiza un estado del arte sobre la utilización de tesauros en la web.

Herramienta libre desarrollada en Python que permite analizar páginas web y seleccionar porciones de datos según parámetros (scrapear)

Sección que permite buscar torrents en archive.org

Herramienta que permite crear copias de sitios, páginas, perfiles en redes etc. Permite disponer de tu propio archivo de la web

Lista de buscadores clasificada según tipo, alcance, tipo de tecnología, etc

Versión web del libro de Marti Hearst publicado por Cambridge Press en 2009

Versión digital del libro de Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze publicado en 2008 por Cambridge University Press

Herramienta del Google que propone palabras clave en base a un texto o a una URL

Herramienta de google que sugiere palabras clave para un sitio o un texto en base al análisis de expresiones de búsqueda potenciales

Sencillo cliente javascript desarrollado por Intrallect que permite consultar fuentes SRU.

Motor de búsqueda a texto completo provisto de sintaxis SQL e integrable con servidores de bases de datos (MySql, Postgres, etc).

Herramienta libre sobre Ruby on Rails y el motor Solr que permite implementar una interfaz de consulta (ej. OPAC) sobre diversas fuentes de datos (MARC, TEI, y XML en general).

Wiki sobre microformatos, una vía estándar que permite agregarle expresividad y cualificar con nombre arbitrarios etiquetas XHTML.

Sitio de la especificación y protocólo sitemaps, un esquema XML utilizado por Google y Yahoo para identificar páginas en sitios y optimizar el grado de precisión en los procesos de indexado

Artículo de Terrence A. Brooks publicado en Information Research, 9(3) que analiza las razones estructurales por las cuales resulta muy improbable que alguna vez los algoritmos de los reobots de búsqueda basen sus cálculos en datos declarados y explícitos... como ser los metadatos.

Artículo ya mítico en el que Sergey Brin y Lawrence Page (1998) describían la arquitectura de un prototipo llamado Google. Traducción al castellano por José M. Dueñas Quesada.

Paperlandia es un experimento desarrollado por Diego Ferreya orientado a resolver servicios documentales en base a esquemas de portabilidad: portabilidad de estructuras de datos y portabilidad terminológica. Esta basado en TemaTres y PKP Open Archives Harvester.

Artículo de Robert Sanderson, Jeffrey Young y Ralph LeVan publicado en D-Lib v.11, n.2 (2005) que realiza un análisis de las relaciones de solapamiento y complementariedad entre plataformas de web services basadas en OAI y SRW/U considerando a la primera como un servicio de agregación y a la segunda como un servicio de recuperación de información .