RE: Postgres como base de datos documental

From: "\(Syswarp\) Carlos Enrique Perez" <carlos(dot)perez(at)syswarp(dot)com(dot)ar>
To: "'Alvaro Herrera'" <alvherre(at)alvh(dot)no-ip(dot)org>
Cc: "'Ayuda'" <pgsql-es-ayuda(at)postgresql(dot)org>
Subject: RE: Postgres como base de datos documental
Date: 2010-03-22 17:35:26
Message-ID: 8DC11FD191914B5F896651A0AAA27167@COCOT
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

Muchisimas gracias por la ayuda.
Saludos.

-----Mensaje original-----
De: Alvaro Herrera [mailto:alvherre(at)alvh(dot)no-ip(dot)org]
Enviado el: lunes, 22 de marzo de 2010 14:30
Para: (Syswarp) Carlos Enrique Perez
CC: 'Ayuda'
Asunto: Re: [pgsql-es-ayuda] Postgres como base de datos documental

(Syswarp) Carlos Enrique Perez escribió:
> Buenos dias:
> Quisiera saber si alguno de ustedes tuvo alguna vez que trabajar con
> este tipo de cosas en postgres y si me pueden comentar que experiencia
> tuvieron a respecto como para saber si estamos en el camino correcto
> como para utilizarlo para tal fin:

Postgres funcionaría como almacén de los datos, y soporta varias de las
características que se listan, pero tendrás que escribir bastante código
para algunas cosas (por ej. el crawler ciertamente, la PKI, los perfiles de
usuario). Con la búsqueda en texto que hay en Postgres tienes muchas de
estas, como las stopwords, el stemming, el highlighting, el tesauro.
Para otras cosas, no me queda claro cómo pueda funcionar, por ej.
proximidad fonética (ciertamente puedes hacerlo pero no usará índices a
menos que tengas índices especializados), configuración de valores de
relevancia.

¿Cuál es la diferencia entre wildcard y stopword en este contexto? (O mejor
dicho entre wildcars y stemming)

Una de las cosas buenas que tiene tsearch es que puedes escribir tu propio
parser si el que viene no te resulta conveniente.

Otra cosa: si vas a almacenar documentos como .docx o .pdf necesitas algú
mecanismo externo para extraer el texto y pasárselo a tsearch.

> . WEB CRAWLER/INDEXADOR (existe algo asi en postgres)? Tsearch sirve?
> . Realizar stemming. (no tengo idea ni siquiera de que es) :P .
> Truncamiento de palabras (wildcards).
> . Lista de palabras vacías (stopwords).
> . Lista de abreviaturas comunes.
> . Permitir la implementación de contadores de frecuencia de palabras.
> . Realizar exhibición destacada (highlighting) del texto buscado en
> los resultados.
> . Deberá tener escalabilidad para espacios de contenidos muy grandes.
> . Deberá ofrecer la posibilidad de configurar los valores de
> relevancia asignados a los resultados.
> . Deberá considerar coincidencias con conceptos del tesauro, términos
> no preferidos, meta información de los documentos y otras relaciones.
> . Permitir recuperación por proximidad fonética y sintáctica y
> expresiones lógicas.
> . Deberá permitir búsquedas contextuales y refinamiento dinámico de
> los resultados obtenidos.
> . Deberá permitir el acceso a la información según perfiles de usuario.
> . Deberá permitir la autenticación mediante mecanismos de PKI.
> . Deberá permitir almacenar las preferencias de entorno según usuario
> y las búsquedas realizadas para su posterior reutilización.

--
Alvaro Herrera
http://www.amazon.com/gp/registry/3BP7BYG9PUGI8
"Si un desconocido se acerca y te regala un CD de Ubuntu ...
Eso es ... Eau de Tux"

In response to

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message ulises gonzalez 2010-03-22 17:48:24 Re: Lenguajes habilitados
Previous Message Alvaro Herrera 2010-03-22 17:30:17 Re: Postgres como base de datos documental