Re: LATIN1 vs. UTF8

From: Luis Rodrigo Gallardo Cruz <rodrigo(at)nul-unu(dot)com>
To: pgsql-es-ayuda(at)postgresql(dot)org
Subject: Re: LATIN1 vs. UTF8
Date: 2007-04-17 21:17:41
Message-ID: 20070417211741.GC3667@caribdis.nul-unu.com
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

On Tue, Apr 17, 2007 at 04:57:08PM -0400, Alvaro Herrera wrote:
> Mario Gonzalez escribió:
> > On 17/04/07, Martin Marques <martin(at)bugs(dot)unl(dot)edu(dot)ar> wrote:
> > >
> > >Yo siempre trabaje con LATIN1 (aka ISO8859-1) porque me alcanzaba y
> > >sobraba, pero veo que todo se esta, aparentemente, moviendo a UTF8.
> >
> > Ambos, UTF8 y Latin1 te serviran para almacenar tildes y eñes. Pero
> > UTF8 gana porque podria guardar directamente otros caracteres no
> > "latinos", ya sean arabe, japones y asi.
>
> Pero usa mas espacio.

Experimento:

Descargué la edición de hoy de la Jornada (un diario mexicano)
http://www.jornada.unam.mx/texto/
y la convertí a .txt con lynx. Luego conté caracteres

$ wc -c *
...
561997 total

El gasto extra de espacio por usar UTF8 debería venir dado,
aproximadamente, por la cantidad de veces que se usen 'áéíóúÁÉÍÓÚñÑ',
¿cierto? Para esos caracteres, UTF8 usa 2 bytes, en lugar de 1.

$ for i in *;do tr -c -d 'áéíóúÁÉÍÓÚñÑ' <$i;done |wc -c
8182

Los demás:

$ for i in *;do tr -d 'áéíóúÁÉÍÓÚñÑ' <$i;done |wc -c
553815

Es decir, ~1.46% son letras acentuadas.

Por tanto, si mis suposiciones son correctas, para almacenar texto
típico en español en UTF8 el costo extra en espacio, comparado con
LATIN1 debe ser de alrededor de ese tanto, 1.5%

Esto, por supuesto, variará según el tipo de texto que se suela
guardar en la base. ¿Alguien tiene un buen muestrario de nombres en
que hacer esto? Supongo que ese es un caso de uso importante.

--
Rodrigo Gallardo
GPG-Fingerprint: 7C81 E60C 442E 8FBC D975 2F49 0199 8318 ADC9 BC28

In response to

Responses

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message Alvaro Herrera 2007-04-17 21:32:29 Re: LATIN1 vs. UTF8
Previous Message HERMES ZAMBRA 2007-04-17 21:01:53 Re: LATIN1 vs. UTF8