From: | Alvaro Herrera <alvherre(at)alvh(dot)no-ip(dot)org> |
---|---|
To: | Anthony Sotolongo <asotolongo(at)gmail(dot)com> |
Cc: | kernel <jucabapa(at)gmail(dot)com>, Ayuda <pgsql-es-ayuda(at)postgresql(dot)org> |
Subject: | Re: lista de stopwords |
Date: | 2024-01-08 16:21:06 |
Message-ID: | 202401081621.edcuwxhhgxdd@alvherre.pgsql |
Views: | Whole Thread | Raw Message | Download mbox | Resend email |
Thread: | |
Lists: | pgsql-es-ayuda |
Anthony Sotolongo escribió:
>
> SELECT
> unnest(string_to_array(pg_read_file('/usr/share/postgresql/'||current_setting
> ('server_version_num')::varchar(2)||'/tsearch_data/spanish.stop'),E'\n'))
> as stopwords;
(Esta query no funciona en el caso general: la ubicación del directorio
de instalación no es obtenible desde dentro de una sesión)
[ ... mirando el archivo ... ]
Uy, esta lista es desastrosa, tiene algunos typos Orribles [sic] como
vosostras
vosostros
y algunas palabras mal consideradas como
tenida
tenidas
que supongo pretenden ser conjugaciones del verbo tener, pero también
tienen otro significado, que a mi parecer las descalifican como
stopwords ...
Más generalmente me doy cuenta que este archivo no ha cambiado desde el
commit original en 2007 (140d4ebcb46e). También me doy cuenta que en
snowballstem.org (el proyecto upstream de nuestros stemmers) no hay nada
sobre stopwords, así que me imagino que las listas vinieron de algún
otro lado ... pero no encuentro dónde.
Existe esto
https://github.com/stopwords-iso/stopwords-es
que aparentemente viene de Snowball.
--
Álvaro Herrera 48°01'N 7°57'E — https://www.EnterpriseDB.com/
"The ability of users to misuse tools is, of course, legendary" (David Steele)
https://postgr.es/m/11b38a96-6ded-4668-b772-40f992132797@pgmasters.net
From | Date | Subject | |
---|---|---|---|
Next Message | Jairo Graterón | 2024-01-09 02:59:46 | Desafío 1brc |
Previous Message | Anthony Sotolongo | 2024-01-08 15:27:32 | Re: lista de stopwords |