• Etiquetas: recuperación de información
Herramienta JAVA que permite imlementar un buscador Web con sus rutinas y parámetros (descubrimiento, indexación y representación de sitios)

PHPCrawl es una herramienta PHP que permite explorar y almacenar páginas, datos y todo tipo fuentes disponibles en la web para implementar buscadores especializados y modelos de explotación de datos

Heritrix es un crawler desarrollado en JAVA que permite Heritrix almacenar en condiciones y gerenciar en condiciones de preservación contenidos hipertextuales disponibles en la Web.

herramienta web que permite analizar sitios y textos de hasta 25.000 caracteres para detectar posibles plágios. Es posible establecer el tipo de análisis (fuentes a utilizar, profundidad, idioma, etc). Utiliza los web services de yahoo y Bing

script en PHP que permite implementar un esquema de clasificación basado en bayesiano ingenuo naive

Mashups y herramientas que utlizan el servicio de extracción de palabras clave de Yahoo

interfaz de búsqueda en el google que permite delimitar fácilmente búsqueda según tipo de documento (doc, pdf, ppt, etc)

Herramienta que extrae palabras clave y las pondera en relación a un vocabulario controlado

SOPAC es un módulo del CMS Drupal que permite articular casi cualquier sistema de gestión bibliotcaria con una interfaz web de consulta del catálogo. Tiene capacidades para esquemas de búsqueda facetados e integración con redes sociales y otras infraestructuras personales de gestión de información. Utiliza como motor de texto completo Sphinx y esta compuesto por 2 módulos, uno llamado Locum que permite y administra la articulación con el sistema de gestión bibliotecaria (tiene APIs desarrolladas para KOHA y un par más de sistemas); y el otro Insurge, que administra la articulación con ambientes de gestión de identidades (redes sociales)

Tutorial de IBM con código de ejemplo para un buscador de autos

Tutorial Acquia sobre cómo utilizar Drupal con Solr

Stemmer para castellano para el motor de texto completo Sphinx

Artículo de Marti Hearst (2006) que propone 8 recomendaciones a considerar a la hora de diseñar una interfaz de búsqueda facetada.

Descripción de algoritmos y sistemas de integración más importantes: PROMPT, FCA-Merge, y Chimaera. Ontologías de Metadatos: fusión y mapeado