• Etiquetas: procesamiento de lenguaje natural
Base de datos que reúne las descripciones y accesos a los artículos y ponencias de diferentes eventos científicos dedicador al procesamiento de lenguaje natural y linguística computacional.

Esta herramienta permite analizar la frecuencia de frases (N-gramas) en recursos bibliográficos según fechas e idiomas. Es útil para una infinidad de propósitos, además... se pueden descargar las fuentes de datos estructurados para realizar experimentos propios

El analizador de textos de JSTOR permite utilizar un documento o texto para buscar otros documentos similares o relacionados. El servicio soporta diferentes formatos de archivo (imágenes, documentos de texto, texto plano, csv, etc) y esta disponibles para 14 idiomas.

extractor de palabras clave en base a tesauros desarrollado por PoolPary. Lo más interesante es el esquema funcional propuesto, con imágenes relacionadas, etiquetas, análisis de sitios en base a URL.

Annif es una herramienta que combina herramientas de procesamiento de lenguaje natural y vocabularios controlados para la clasificación e indización automática de textos. Permite utilizar diversos algoritmos o esquemas alternativos para la clasificación de textos. Desde algoritmos especializados en la extracción de entidades (por ejemplo reconocimiento de nombre propios o instituciones), análisis de frecuencias (para extracción de palabras clave) o clasificación con vocabularios controlados. Dispone además de una herramientas de OCR para celulares que permite tomar fotos de textos para luego indizarlos en 2 sencillos pasos. La herramienta esta desarrollada mayormente en Python y es mantenida por la biblioteca nacional de Finlandia

Tutorial elaborado inicialmente para el SWIB19 y actualizado para la DCMI Virtual 2020. Incluye instrucciones paso a paso y ejercicios

AntConc es una herramienta freeware desarrollada por Laurence Anthony en JAVA que permite analizar corpus textuales. Permite extraer frecuencia de palabras, palabras clave, palabras en contexto, lemas (ngram) entre otras facilidades

Conferencia Magistral a cargo de Diego Ferreyra realizada el 20 de octubre de 2023 en el marco de la XXXIV Asamblea General de la Asociación de Estados Iberoamericanos para el Desarrollo de las Bibliotecas Nacionales de Iberoamérica (ABINIA)

arText redactor asistido para el español que ayuda a escribir textos de ámbitos especializados y textos en lenguaje claro. Desarrollado y mantenido por la UNED (España), la herramienta analiza pequeños textos según criterios de estructura textual, frecuencia léxica, parámetros morfológicos y sintácticos, detecta y marca potenciales problemas y realiza sugerencias. Es una herramienta gratuita y no requiere registro

BabelNet es un diccionario enciclopédico multilingüe cuya alcance lexicográfico está basado en entidades y conceptos provistos por diferentes fuentes de datos en línea. Es un proyecto orientado a construir y ofrecer una infraestructura de servicios lexicográficos similar a la de WordNet pero con un alcance multilingüe. Compila y vincula más de 50 fuentes. Dispone de una API y la posibilidad de descargar datos fuente

The basic PHP N-gram Functions These short functions, combined with an extensive set of finger-prints, do all the work for a Statistical Language Detection. There's also a simple script at the bottom of this page

script en PHP que permite implementar un esquema de clasificación basado en bayesiano ingenuo naive

Herramienta desarrollada por la Universidad Iberoamericana de la Ciudad de México que analiza corpus textuales y detecta usos del lenguaje no inclusivos en términos de género

Herramienta que permite extraer y acceder a los subtítulos generados automáticamente por Youtube para sus videos

Excelente ejemplo de explotación de las posibilidades del procesamiento de fuentes lingüísticas formales. Permite analizar y utilizar el Diccionario de la Real Academia según lemas, raíz morfológica, extensión del término y facilidades de ordenamiento según varios criterios de relevancia. Además permite descargar las fuentes terminológicas ya estructuradas. Muy bueno

Herramienta Google derivada del Google Trends que permite identificar expresiones de búsqueda que tienen una distribución de frecuencia de búsqueda cercana o similar a una expresión de búsqueda determinada

Analizador de frecuencia de palabras (ngram) utilizando como corpus Google books

Sitio mantenido por un grupo de estudiantes y egresados de la carrera de Letras que nos hemos especializado en el área de la Lingüística Computacional que reúne recursos, tutoriales y cursos sobre procesamiento del lenguaje natural

Herramienta que permite establecer un indicador de felicidad en base al análisis de publicaciones en tweeter. Permite analizar la felicidad en períodos específicos, según eventos y otros parámetros.

Compilación de herramientas para análisis de corpus lingüísticos mantenida por Kristin Berberich y Ingo Kleiber