Métodos de Compresión
1.Introducción
2.Métodos de compresión
-Transformada Discreta Coseno
-Codificación entrópica
-Compensación del movimiento
-Representación del color
-MPEG-1
-Motion JPEG
-H261/H263
3.MPEG-2
-Principios de codificación
-Sincronización entre secuencias elementales
-Errores
-Corrección y silenciamiento de errores
Los sistemas DBS permiten
que un usuario acceda a una gran cantidad de información de distinta
naturaleza, vídeo, audio y datos. Para que el sistema sea eficiente
y no se llegue a una saturación del espectro, se han de emplear
métodos de compresión de la información. A su vez
estos métodos permiten detectar y corregir errores un la transmisión.
El método más utilizado en los sistemas DBS es el MPEG-2,
pues es el método de compresión de audio y vídeo por
escelencia.
En aplicaciones futuras del DBS, como pueden ser aplicaciones multimedia
o de interacción con el usuario los métodos de compresión
serán de gran relevancia.
Transformada Discreta
del Coseno
La energía de vídeo
de la imagen tiene una frecuencia espacial bastante baja, que varía
lentamente con el tiempo. Por tanto una transformada puede concentrar la
energía en muy pocos coeficientes. Para esta transformada la imagen
actual se divide en bloques para decrementar la complejidad. Todos los
bloques (8x8) son transformados de acuerdo con una Transformada Discreta
del Coseno (DCT) de dos dimensiones que puede ser considerada como una
DCT
unidimensional en las columnas y otra en las filas. A cada coeficiente
se le asocia una función específica de frecuencias horizontales
y verticales, y su valor (después de la transformación) indica
la contribución de estas frecuencias al bloque de la imagen. Sin
embargo, la DCT no reduce el n£mero
de bits que se requieren para la representación del bloque.
Esta reducción se hace después de comprobar que la distribución
de los coeficientes no sea uniforme. La transformada concentra la mayor
parte de la energía de vídeo en las bajas frecuencias provocando
que la mayoría de los coeficientes sean cero o casi cero. Se consigue
la compresión saltándose todos los coeficientes
que estan cerca de cero y cuantificando los restantes (se cuantifican
los coeficientes con
un n£mero finito de bits pudiendo producirse pérdidas
de compresión).
Las ventajas de la DCT son
la gran compactación de coeficientes (el resultado es normalmente
un n£mero reducido de coeficientes), que se utilizan algoritmos de
c lculo r pido y que es una transformada real. Las desventajas son la introducción
de un ruido granular (al cuantificar los coeficientes), la pérdida
de resolución y el efecto bloque (al aplicar la DCT sobre bloques
y no sobre la imagen global se pueden independizar los bloques entre
sí y se observa la separación que existe entre ellos.
Codificación Entrópica
Los codificadores entrópicos son aquellos
que tienen en cuenta la frecuencia de aparición de los signos a
la hora de asignarles un código binario de representación,
es decir, al asignar los códigos de longitud variable.
En MPEG, los codificadores
utilizados implementan el algoritmo de asignación de Huffman que
se basa en asignar códigos de longitud más grande a los símbolos
que aparecen menos y más cortos a los símbolos más
probables, disminuyendo de esta forma la tasa binaria.
Compensación de movimiento
Esta técnica tiene
como objetivo principal eliminar la redundancia temporal entre las imágenes
que componen una secuencia con el fin de aumentar la compresión.
Para eliminar dicha redundancia, la idea inicial que puede ocurrirsenos
es transmitir la diferencia entre un píxel en una
posición de un fotograma (imagen) y el píxel situado
en la misma posición pero en el fotograma siguiente. Esto sirve
cuando las imágenes son est ticas. Pero lo normal es tener imágenes
din micas y por tanto no podemos implementar lo anterior tal cual, sino
que previamente habráá que estimar el movimiento que
ha sufrido un píxel de un objeto de un fotograma al siguiente. Habráá
que calcular el vector de movimiento asociado a cada píxel de la
imagen. Al decodificador se
transmitir la diferencia y los vectores de movimiento calculados.
Si los vectores est n bien calculados la diferencia entre una imagen y
la siguiente compensada ser muy pequeña, ya que la escena
no cambia bruscamente en un corto intervalo de tiempo. Se ha ganado pues
en compresión.
Representación del color
Según la primera
ley de Grassmann toda sensación de color se puede obtener
por suma de tres fuentes de colores denominadas primarias y que son
rojo, verde y azul. Uno de los conceptos importantes introducidos que
permitió el avance en los sistemas de vídeo fue separar la
luminancia
de la crominancia. Inicialmente el NTSC (EE.UU)definió
la transmisión de las señales en un formato de luminancia
y crominanacia (antes se utilizaba un formato que utilizaba los tres
componentes de color). El nuevo espacio de color se denominó
YIQ, donde las letras representan la luminancia, la componente en
fase de la crominancia y la componente en cuadratura de la
croma, respectivamente. Posteriormente el PAL y el SECAM, europeos,
optaron por un espacio de colores idéntico pero con una rotación
de 33 grados. Es el denominado espacio YUV. El equivalente digital
de YUV es el YCbCr, donde Cb
es la componente de crominancia que corresponde con la componente U y
la Cr es an logo a V. El formato YCbCr,
concentra la mayor parte de la información de la imagen en la luminancia
y menos en la crominancia. El resultado es que los elementos de YCbCr,están
menos correlados y pueden ser codificados por separado. Otra ventaja
que se consigue es la reducción de la velocidad de transmisión
de las componentes de crominancia. El algoritmo de MPEG estrictamente
especifica el epacio de colores YCbCr,
no el YUV ni el YIQ ni cualquier otro.
MPEG-1
El estándar de compresión
de vídeo MPEG-1 (ISO/IEC 11172) fue diseñado para soportar
codificación de vídeo para tasas de bits de aproximadamente
1.5 Mbps. Este método de codificación de vídeo emplea
las imágenes I, P y B descritas en MPEG-2. La calidad de vídeo
que se consigue con este est ndar es similar a la de un vídeo VHS.
Este nivel de calidad generalmente no es aceptable para la difusión
de vídeo de calidad. Las imágenes son en color, pero convertidas
al
espacio YUV, y los dos canales de crominancia (U y V) son diezmados
posteriormente a 176 por 120 pixels. Una pérdida de resolución
en estos canales es inapreciable, al menos en imágenes no generadas
por ordenador. La compresión que se consigue es aproximadamente
6:1.
Motion JPEG
Motion JPEG Joint
Photographic Experts Group es una extensión del est ndar de
ITU/ISO JPEG para imágenes sin movimiento. El Motion JPEG es un
método de compresión simétrico y típicamente
consigue niveles de compresión de 10:1 hasta 50:1. Como es una extensión
del est ndar JPEG para imágenes sin movimiento, el Motion JPEG sólo
elimina redundancia dentro de una imagen y no la redundancia inter-imagen.
Esto resulta en una compresión significantemente menor a la que
efectuaría un método de compresión que eliminase los
dos tipos de redundancia. Otro inconveniente del Motion JPEG es que el
audio no est integrado en el método de
compresión.
La falta de codificación
inter-imagen puede ser positiva para algunas aplicaciones de vídeo.
Si de desea tener acceso a una imagen de vídeo aleatoria, Motion
JPEG permitir un acceso más r pido que MPEG puesto que no
se tendr que esperar a la llegada de m£ltiples imágenes
para
decodificar una en específico (las imágenes no dependen
de otras).
H261/H263
La recomendación
de ITU-T H.261 describe una codificación de vídeo est ndar
para transmisión de audio y vídeo en dos direcciones. Tradicionalmente
ha utilizado los enlaces de 64 Kbps ó 128 Kbps de RDSI. El H.261
utiliza buffers para moderar las variaciones en la tasa de emisión
de bits (bit rate) del codificador de vídeo. Se puede conseguir
una tasa de emisión de bits casi constante realimentando el estado
del buffer al codificador. Cuando el buffer est casi lleno, el codificador
puede ajustar la tasa de emisión de bits aumentando el tamaño
del escalón de cuantificación. Esto disminuir la tasa de
emisión de bits a expensas de perder cierta calidad de vídeo.
Como MPEG-2 este método de codificación emplea predicción
por compensación de movimiento. También, H.261 emplea VLCïs
en el nivel base, grupos de bloques forman macrobloques y los grupos de
macrobloques forman el nivel de imagen.
El objetivo para H.263 era
proporcionar mejor calidad de imagen que el algoritmo de compresión
de vídeo de ITU-T existente, H.261. Por motivos de tiempo, el H.263
est basado en tecnología ya existente. Aún existe un
método más novedoso, el H263/L (algoritmo long-term)
que mejora considerablemente la calidad de imagen del H.263 y la
silenciación de los errores. El H.263, además de utilizar
nuevas técnicas de codificación, emplea técnicas conocidas
como la transformada coseno discreta y la compensación de movimiento.
El estándar MPEG-2 es una extensión del est ndar MPEG-1. Para una imagen de televisión est ndar (704 x 576 pixels) y un frame rate (velocidad a la cual las imágenes salen en la decodificación) típico de 25Hz, MPEG-2 est diseñado para proporcionar televisión de alta calidad con un bit rate entre 4-9Mb/s. MPEG-2 fue diseñado para proporcionar codificación de vídeo de alta calidad apropiado para transmisión sobre redes de computadores. De hecho MPEG-2 es el principal protocolo de compresión utilizado sobre conexiones DBS. Este estándar de compresión de vídeo y audio es capaz de explotar redundancias espaciales y temporales, consiguiendo ratios de compresión de hasta 200:1 y además siendo capaz de codificar una fuente de vídeo y/o audio con casi cualquier nivel de calidad.
Principios de codificación
Una secuencia de vídeo
tiene tres tipos de redundancia que un esquema de codificación necesita
explotar en orden de conseguir una muy buena compresión:
Las imágenes desde
una imagen I hasta la siguiente forman un grupo
de imagenes (GOP). Los componentes de un GOP están dibujados
en la Figura 2.
Las imágenes son generadas por
el codificador MPEG-2 generando en primer lugar los bloques 8x8, de luminancia
o crominancia. Los bloques de luminancia se combinan en grupos de cuatro,
los cuales, cuando se combinan con la información asociada de crominancia
para la correspondiente región de la imagen forman macrobloques,
que son de 16x16 pixels. Los macrobloques adyacentes son agrupados en un
slice. Una imagen está compuesta por un números
de slices precedidos por una cabecera de imagen. De igual forma,
un slice está compuesto de un número de macrobloques
precedidos de una cabecera de slice. Cada macrobloque también
comienza con una cabecera, que
contiene información de la ubicación del macrobloque
MB adress, y vectores de movimiento utilizados en predicción
con compensación de movimiento. En el primer macrobloque de cada
slice, el MB adress y el vector de movimiento son codificados
absolutamente. En cada uno de los restantes macrobloques del slice,
estos par metros son codificados diferencialmente con respecto a los correspondientes
valores del macrobloque inmediatamente anterior.
El nivel de sistema de MPEG-2
(Systems Layer) describe un método estándar para multiplexar
y demultiplexar secuencias de media (audio, vídeo y secuencias de
datos) y un mecanismo, que utilizando sellos temporales consigue mantener
una sincronización entre varias secuencias dentro de
la red. El nivel de sistema de MPEG-2 permite que varias secuencias
de audio y vídeo se combinen para formar una única secuencia
de salida. El MPEG Systems Layer puede adquirir dos formas:
La secuencia de transporte proporciona las siguientes funciones:
Errores
Para proporcionar vídeo de una calidad aceptable
al usuario, la red debe proporcionar cierto nivel de servicio. Variabilidad
en el retardo de células (CDV: Cell Delay Variation), errores
de bit y pérdida de células tienen severos efectos en la
calidad del flujo de vídeo recibido. Un enlace de transmisión
con una tasa de error de bit de 10^-5 sería aceptable para una transmisión
de información en tiempo no real, con algún tipo de algoritmo
de corrección de errores. En un flujo de información de vídeo,
esta tasa de error causaría una seria degradación de la calidad
del vídeo recibido. Vamos a ver con más detalle los problemas
que causan la degradación de la calidad de servicio en la transmisión
de multimedia.
Métodos de corrección de errores
La corrección de errores es más difícil para información en tiempo real que para información que no requiere tiempo real. La naturaleza de tiempo real de los flujos de información de vídeo indica que no pueden tolerar los retardos que est n asociados a las técnicas de corrección de errores de las retransmisiones tradicionales. Por esta razón ARQ (esperar un reconocimiento o un timeout para retransmitir una imagen) no es útil para corregir errores en vídeo.
El FEC ( Forward Error Correction) es una
técnica de corrección de errores más utilizada. FEC
toma un conjunto de símbolos que representan la información
a la entrada y les añade redundancia, produciendo unos símbolos
de salida diferentes y más grandes. FEC permite recuperar la información
perdida pero a costa de requerir un ancho de banda mayor en la transmisión.
Este tr fico añadido puede introducir congestión adicional
en la red, provocando un mayor n£mero
de células perdidas.
Métodos de silenciamiento de errores
Para conseguir silenciamiento de errores en la transmisión de vídeo utilizan tres tipos de métodos: