Re: Postgres como base de datos documental

From: Alvaro Herrera <alvherre(at)alvh(dot)no-ip(dot)org>
To: "(Syswarp) Carlos Enrique Perez" <carlos(dot)perez(at)syswarp(dot)com(dot)ar>
Cc: 'Ayuda' <pgsql-es-ayuda(at)postgresql(dot)org>
Subject: Re: Postgres como base de datos documental
Date: 2010-03-22 17:30:17
Message-ID: 20100322173017.GA4121@alvh.no-ip.org
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

(Syswarp) Carlos Enrique Perez escribió:
> Buenos dias:
> Quisiera saber si alguno de ustedes tuvo alguna vez que trabajar con este
> tipo de cosas en postgres y si me pueden comentar que experiencia tuvieron a
> respecto como para saber si estamos en el camino correcto como para
> utilizarlo para tal fin:

Postgres funcionaría como almacén de los datos, y soporta varias de las
características que se listan, pero tendrás que escribir bastante código
para algunas cosas (por ej. el crawler ciertamente, la PKI, los perfiles
de usuario). Con la búsqueda en texto que hay en Postgres tienes muchas
de estas, como las stopwords, el stemming, el highlighting, el tesauro.
Para otras cosas, no me queda claro cómo pueda funcionar, por ej.
proximidad fonética (ciertamente puedes hacerlo pero no usará índices a
menos que tengas índices especializados), configuración de valores de
relevancia.

¿Cuál es la diferencia entre wildcard y stopword en este contexto? (O
mejor dicho entre wildcars y stemming)

Una de las cosas buenas que tiene tsearch es que puedes escribir tu
propio parser si el que viene no te resulta conveniente.

Otra cosa: si vas a almacenar documentos como .docx o .pdf necesitas
algú mecanismo externo para extraer el texto y pasárselo a tsearch.

> . WEB CRAWLER/INDEXADOR (existe algo asi en postgres)? Tsearch sirve?
> . Realizar stemming. (no tengo idea ni siquiera de que es) :P
> . Truncamiento de palabras (wildcards).
> . Lista de palabras vacías (stopwords).
> . Lista de abreviaturas comunes.
> . Permitir la implementación de contadores de frecuencia de palabras.
> . Realizar exhibición destacada (highlighting) del texto buscado en los
> resultados.
> . Deberá tener escalabilidad para espacios de contenidos muy grandes.
> . Deberá ofrecer la posibilidad de configurar los valores de relevancia
> asignados a los resultados.
> . Deberá considerar coincidencias con conceptos del tesauro, términos no
> preferidos, meta información de los documentos y otras relaciones.
> . Permitir recuperación por proximidad fonética y sintáctica y expresiones
> lógicas.
> . Deberá permitir búsquedas contextuales y refinamiento dinámico de los
> resultados obtenidos.
> . Deberá permitir el acceso a la información según perfiles de usuario.
> . Deberá permitir la autenticación mediante mecanismos de PKI.
> . Deberá permitir almacenar las preferencias de entorno según usuario y las
> búsquedas realizadas para su posterior reutilización.

--
Alvaro Herrera http://www.amazon.com/gp/registry/3BP7BYG9PUGI8
"Si un desconocido se acerca y te regala un CD de Ubuntu ...
Eso es ... Eau de Tux"

In response to

Responses

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message (Syswarp) Carlos Enrique Perez 2010-03-22 17:35:26 RE: Postgres como base de datos documental
Previous Message noXat 2010-03-22 16:58:10 Re: Herramienta para modelado de Base de Datos