Re: lista de stopwords

From: kernel <jucabapa(at)gmail(dot)com>
To: Ayuda <pgsql-es-ayuda(at)postgresql(dot)org>
Subject: Re: lista de stopwords
Date: 2024-01-09 08:08:45
Message-ID: 36d3b328-dabb-42d9-9c07-ecbc091109c8@gmail.com
Views: Whole Thread | Raw Message | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda


El 08/01/2024 a las 17:21, Alvaro Herrera escribió:
> Anthony Sotolongo escribió:
>> SELECT
>> unnest(string_to_array(pg_read_file('/usr/share/postgresql/'||current_setting
>> ('server_version_num')::varchar(2)||'/tsearch_data/spanish.stop'),E'\n'))
>> as stopwords;
> (Esta query no funciona en el caso general: la ubicación del directorio
> de instalación no es obtenible desde dentro de una sesión)
>
> [ ... mirando el archivo ... ]
>
> Uy, esta lista es desastrosa, tiene algunos typos Orribles [sic] como
>
> vosostras
> vosostros
>
> y algunas palabras mal consideradas como
>
> tenida
> tenidas
>
> que supongo pretenden ser conjugaciones del verbo tener, pero también
> tienen otro significado, que a mi parecer las descalifican como
> stopwords ...
>
> Más generalmente me doy cuenta que este archivo no ha cambiado desde el
> commit original en 2007 (140d4ebcb46e). También me doy cuenta que en
> snowballstem.org (el proyecto upstream de nuestros stemmers) no hay nada
> sobre stopwords, así que me imagino que las listas vinieron de algún
> otro lado ... pero no encuentro dónde.
>
> Existe esto
> https://github.com/stopwords-iso/stopwords-es
> que aparentemente viene de Snowball.

Gracias, al final he creado una función que me devuelve una tabla, no
puedo estar pendiente de la versión que tengo instalada, ademas como
parece que la lista no sufre cambios

Un Saludo

In response to

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message Enrique Herrera Noya 2024-01-09 11:38:58 Re: Desafío 1brc
Previous Message Horacio Miranda 2024-01-09 03:19:15 Re: Desafío 1brc