Apache Solr

por | Jul 6, 2018 | Big data, Hadoop | 1 Comentario

Definición de Solr

Solr logoApache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON.

Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico.

Este motor de búsqueda Solr es altamentente escalable y tolerante a fallos. Proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada.

 

Características

  • Posee una interfaz para su administración, que permite consultar estadísticas de rendimiento, ver el uso de la cache, realizar búsquedas, navegar por los términos de índices, visualizar detalladamente las matemáticas de puntuación y las fases de análisis de texto.
  • Permite configurar la indexación y recuperación de documentos mediante ficheros XML.
  • El tipado de campos permite realizar búsquedas por fecha y mejorar la ordenación.
  • Permite navegación por facetas en las búsquedas, es decir permite acceder a la información clasificada por diferentes  taxonomías.
  • Dispone de un plugin para buscar documentos similares.
  • Permite el manejo de documentos enriquecidos como word o PDF.
  • Permite búsquedas geoespaciales.
  • Permite agrupación dinámica de información.
  • Las consultas son RESTFul, lo que significa es que las peticione son HTTP por URL y las respuestas son documentos estructurados como XML, aunque también soporta JSOMCSV.
  • Incorpora un componente de auto completar que facilita las búsquedas llamado «suggester«.
  • El escalado lo realiza mediante sharding, es una técnica en la que se divide una colección en múltiples partes lógicas «shards» con el objetivo de ampliar el número de documentos más allá de lo que pudiera entrar en un servidor y así poder distribuir la consulta a N servidores.

 

Fuente: Web oficial

1 Comentario

  1. saul hernandez

    Buenas tardes!
    Antes que nada reciba un cordial saludo.

    Recurro a ustede ya que es un experto en esto de Dspace , por eso me atrevo a hacerle la siguiente consulta.

    Tengo un repositorio en línea en el cual tenemos 3 comunidades y cada comunidad cuenta con 2 colecciones. Necesito sacar estadisticas de los items depositados por año y por mes por colección. Existe alguna manera para ello? ya que las estadísticas que vienen por default ( numero de visitas a los items etc no me sirven por el momento).

    Espero haber sido claro y ojala pueda ayudarme.

    Gracias por leerme.

    salu2!

    Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *