Métodos de Compresión
                          1.Introducción
                          2.Métodos de compresión
                                  -Transformada Discreta Coseno
                                    -Codificación entrópica
                                    -Compensación del movimiento
                                  -Representación del color
                                  -MPEG-1
                                    -Motion JPEG
                                  -H261/H263
                          3.MPEG-2
                                  -Principios de codificación
                                  -Sincronización entre secuencias elementales
                                  -Errores
                                  -Corrección y silenciamiento de errores
 

1.Introducción

        Los sistemas DBS permiten que un usuario acceda a una gran cantidad de información de distinta naturaleza, vídeo, audio y datos. Para que el sistema sea eficiente y no se llegue a una saturación del espectro, se han de emplear métodos de compresión de la información. A su vez estos métodos permiten detectar y corregir errores un la transmisión. El método más utilizado en los sistemas DBS es el MPEG-2, pues es el método de compresión de audio y vídeo por escelencia.
En aplicaciones futuras del DBS, como pueden ser aplicaciones multimedia o de interacción con el usuario los métodos de compresión serán de gran relevancia.

2.Métodos de Compresión

Transformada Discreta del Coseno
        La energía de vídeo de la imagen tiene una frecuencia espacial bastante baja, que varía lentamente con el tiempo. Por tanto una transformada puede concentrar la energía en muy pocos coeficientes. Para esta transformada la imagen actual se divide en bloques para decrementar la complejidad. Todos los bloques (8x8) son transformados de acuerdo con una Transformada Discreta del Coseno (DCT) de dos dimensiones que puede ser considerada como una DCT
unidimensional en las columnas y otra en las filas. A cada coeficiente se le asocia una función específica de frecuencias horizontales y verticales, y su valor (después de la transformación) indica la contribución de estas frecuencias al bloque de la imagen. Sin embargo, la DCT no reduce el n£mero
de bits que se requieren para la representación del bloque. Esta reducción se hace después de comprobar que la distribución de los coeficientes no sea uniforme. La transformada concentra la mayor parte de la energía de vídeo en las bajas frecuencias provocando que la mayoría de los coeficientes sean cero o casi cero. Se consigue la compresión saltándose todos los coeficientes
que estan cerca de cero y cuantificando los restantes (se cuantifican los coeficientes con
un n£mero finito de bits pudiendo producirse pérdidas de compresión).
        Las ventajas de la DCT son la gran compactación de coeficientes (el resultado es normalmente un n£mero reducido de coeficientes), que se utilizan algoritmos de c lculo r pido y que es una transformada real. Las desventajas son la introducción de un ruido granular (al cuantificar los coeficientes), la pérdida de resolución y el efecto bloque (al aplicar la DCT sobre bloques
y no sobre la imagen global se pueden independizar los bloques entre sí y se observa la separación que existe entre ellos.

Codificación Entrópica
     Los codificadores entrópicos son aquellos que tienen en cuenta la frecuencia de aparición de los signos a la hora de asignarles un código binario de representación, es decir, al asignar los códigos de longitud variable.
        En MPEG, los codificadores utilizados implementan el algoritmo de asignación de Huffman que se basa en asignar códigos de longitud más grande a los símbolos que aparecen menos y más cortos a los símbolos más probables, disminuyendo de esta forma la tasa binaria.

Compensación de movimiento
        Esta técnica tiene como objetivo principal eliminar la redundancia temporal entre las imágenes que componen una secuencia con el fin de aumentar la compresión. Para eliminar dicha redundancia, la idea inicial que puede ocurrirsenos es transmitir la diferencia entre un píxel en una
posición de un fotograma (imagen) y el píxel situado en la misma posición pero en el fotograma siguiente. Esto sirve cuando las imágenes son est ticas. Pero lo normal es tener imágenes din micas y por tanto no podemos implementar lo anterior tal cual, sino que previamente habráá  que estimar el movimiento que ha sufrido un píxel de un objeto de un fotograma al siguiente. Habráá  que calcular el vector de movimiento asociado a cada píxel de la imagen. Al decodificador se
transmitir  la diferencia y los vectores de movimiento calculados. Si los vectores est n bien calculados la diferencia entre una imagen y la siguiente compensada ser  muy pequeña, ya que la escena no cambia bruscamente en un corto intervalo de tiempo. Se ha ganado pues en compresión.

Representación del color
        Según la primera ley de Grassmann toda sensación de color se puede  obtener por suma de tres fuentes de colores denominadas primarias y que son  rojo, verde y azul. Uno de los conceptos importantes introducidos que  permitió el avance en los sistemas de vídeo fue separar la luminancia
 de la crominancia. Inicialmente el NTSC (EE.UU)definió la transmisión de  las señales en un formato de luminancia y crominanacia (antes se utilizaba  un formato que utilizaba los tres componentes de color). El nuevo espacio  de color se denominó YIQ, donde las letras representan la luminancia, la  componente en fase de la crominancia y la componente en cuadratura de la
 croma, respectivamente. Posteriormente el PAL y el SECAM, europeos, optaron  por un espacio de colores idéntico pero con una rotación de 33 grados. Es el  denominado espacio YUV. El equivalente digital de YUV es el YCbCr, donde Cb es la componente de crominancia que corresponde con la componente U y  la Cr es an logo a V. El formato YCbCr, concentra la mayor parte de la información de la imagen en la luminancia y menos en la crominancia. El  resultado es que los elementos de YCbCr,están menos correlados y pueden  ser codificados por separado. Otra ventaja que se consigue es la reducción  de la velocidad de transmisión de las componentes de crominancia. El  algoritmo de MPEG estrictamente especifica el epacio de colores YCbCr,
 no el YUV ni el YIQ ni cualquier otro.

MPEG-1
        El estándar de compresión de vídeo MPEG-1 (ISO/IEC 11172) fue diseñado para soportar codificación de vídeo para tasas de bits de aproximadamente 1.5 Mbps. Este método de codificación de vídeo emplea las imágenes I, P y B descritas en MPEG-2. La calidad de vídeo que se consigue con este est ndar es similar a la de un vídeo VHS. Este nivel de calidad generalmente no es aceptable para la difusión de vídeo de calidad. Las imágenes son en color, pero convertidas al
espacio YUV, y los dos canales de crominancia (U y V) son diezmados posteriormente a 176 por 120 pixels. Una pérdida de resolución en estos canales es inapreciable, al menos en imágenes no generadas por ordenador. La compresión que se consigue es aproximadamente 6:1.

Motion JPEG
        Motion JPEG  Joint Photographic Experts Group es una extensión del est ndar de ITU/ISO JPEG para imágenes sin movimiento. El Motion JPEG es un método de compresión simétrico y típicamente consigue niveles de compresión de 10:1 hasta 50:1. Como es una extensión del est ndar JPEG para imágenes sin movimiento, el Motion JPEG sólo elimina redundancia dentro de una imagen y no la redundancia inter-imagen. Esto resulta en una compresión significantemente menor a la que efectuaría un método de compresión que eliminase los dos tipos de redundancia. Otro inconveniente del Motion JPEG es que el audio no est  integrado en el método de
compresión.
        La falta de codificación inter-imagen puede ser positiva para algunas aplicaciones de vídeo. Si de desea tener acceso a una imagen de vídeo aleatoria, Motion JPEG permitir  un acceso más r pido que MPEG puesto que no se tendr  que esperar a la llegada de m£ltiples imágenes para
decodificar una en específico (las imágenes no dependen de otras).

H261/H263
        La recomendación de ITU-T H.261 describe una codificación de vídeo est ndar para transmisión de audio y vídeo en dos direcciones. Tradicionalmente ha utilizado los enlaces de 64 Kbps ó 128 Kbps de RDSI. El H.261 utiliza buffers para moderar las variaciones en la tasa de emisión de bits (bit rate) del codificador de vídeo. Se puede conseguir una tasa de emisión de bits casi constante realimentando el estado del buffer al codificador. Cuando el buffer est  casi lleno, el codificador puede ajustar la tasa de emisión de bits aumentando el tamaño del escalón de cuantificación. Esto disminuir la tasa de emisión de bits a expensas de perder cierta calidad de vídeo.
Como MPEG-2 este método de codificación emplea predicción por compensación de movimiento. También, H.261 emplea VLCïs en el nivel base, grupos de bloques forman macrobloques y los grupos de macrobloques forman el nivel de imagen.
        El objetivo para H.263 era proporcionar mejor calidad de imagen que el algoritmo de compresión de vídeo de ITU-T existente, H.261. Por motivos de tiempo, el H.263 est  basado en tecnología ya existente. Aún existe un método más novedoso, el H263/L (algoritmo long-term) que mejora considerablemente la calidad de imagen del H.263 y  la silenciación de los errores. El H.263, además de utilizar nuevas técnicas de codificación, emplea técnicas conocidas como la transformada coseno discreta y la compensación de movimiento.

3.MPEG-2

        El estándar MPEG-2 es una extensión del est ndar MPEG-1. Para una imagen de televisión est ndar (704 x 576 pixels) y un  frame rate (velocidad a la cual las imágenes salen en la  decodificación) típico de 25Hz, MPEG-2 est  diseñado para proporcionar televisión de alta calidad con un bit rate entre 4-9Mb/s. MPEG-2 fue diseñado para proporcionar codificación de vídeo de alta calidad apropiado para transmisión sobre redes de computadores. De hecho MPEG-2 es el principal protocolo de compresión utilizado sobre conexiones DBS.  Este estándar de compresión de vídeo y audio es capaz de explotar redundancias espaciales y temporales, consiguiendo ratios de compresión de hasta 200:1 y además siendo capaz de codificar una fuente de vídeo y/o audio con casi cualquier nivel de calidad.

Principios de codificación
        Una secuencia de vídeo tiene tres tipos de redundancia que un esquema de codificación necesita explotar en orden de conseguir una muy buena compresión:

         Las redundancias espaciales y temporales ocurren porque los valores de los pixels no son completamente independientes si no que están correlados con los valores de los pixels vecinos, tanto en espacio como en tiempo (es decir, dentro de una misma trama o con las tramas anterior y/o posterior). Por ello diremos que sus valores pueden ser predichos en cierta medida. Por otra parte, la redundancia psicovisual tiene que ver con las limitaciones físicas del ojo humano, que tiene una limitada respuesta para fijarse en los detalles espaciales y es menos sensitivo al distinguir detalles en las esquinas o los cambios r pidos. Por tanto, el proceso de codificación puede ser capaz de minimizar el  bit-rate mientras se mantiene constante la calidad a la que el ojo humano ve
la imagen decodificada.
        El sistema de compresión MPEG-2 (al igual que MPEG-1) utiliza la Transformada Discreta del Coseno(DCT) y codificación entrópica para transformar un bloque de pixels en codigos de longitud variable (VLC). Los bloques son la mínima unidad de codificación en el algoritmo MPEG. Están
compuestos de pixels de 8x8 y pueden ser de tres tipos: luminancia (Y), componente rojo de la crominancia Cr y el componente azul de la crominancia Cb. Mediante la DCT los bloques adquieren la forma de VLC, que no son más que la representación de de los coeficientes cuantificados de
la DCT. Los codificadores MPEG-2 producen tres tipos de de imágenes: intra-frame (o imágenes I), imágenes interframe causales (o imágenes P) e imágenes  interfram bidireccionales (o imágenes B). La relación entre estos tres tipos de tramas se puede ver en la Figura 1.


                                                      Figura 1.
 

 

        Las imágenes desde una imagen I hasta la siguiente forman un grupo
de imagenes (GOP). Los componentes de un GOP están dibujados en la Figura 2.

      Las imágenes son generadas por el codificador MPEG-2 generando en primer lugar los bloques 8x8, de luminancia o crominancia. Los bloques de luminancia se combinan en grupos de cuatro, los cuales, cuando se combinan con la información asociada de crominancia para la correspondiente región de la imagen forman macrobloques, que son de 16x16 pixels. Los macrobloques adyacentes son agrupados en un slice. Una imagen está  compuesta por un números de slices precedidos por una cabecera de imagen. De igual forma, un slice está  compuesto de un número de macrobloques precedidos de una cabecera de slice. Cada macrobloque también comienza con una cabecera, que
contiene información de la ubicación del macrobloque MB adress, y vectores de movimiento utilizados en predicción con compensación de movimiento. En el primer macrobloque de cada slice, el  MB adress y el vector de movimiento son codificados absolutamente. En cada uno de los restantes macrobloques del slice, estos par metros son codificados diferencialmente con respecto a los correspondientes valores del macrobloque inmediatamente anterior.
        El nivel de sistema de MPEG-2 (Systems Layer) describe un método estándar para multiplexar y demultiplexar secuencias de media (audio, vídeo y secuencias de datos) y un mecanismo, que utilizando sellos temporales consigue mantener una sincronización entre varias secuencias dentro de
la red. El nivel de sistema de MPEG-2 permite que varias secuencias de audio y vídeo se combinen para formar una única secuencia de salida. El MPEG Systems Layer puede adquirir dos formas:

        Con el fin de generar cualquiera de las dos multiplexaciones, una secuencia de vídeo se fragmenta en una cadena de imágenes codificadas, denominadas unidades de acceso. Una unidad de acceso de MPEG representa una imagen I, P ó B codificada y es variable en tamaño, dependiendo del nivel de compresión conseguido para la imagen. Una sucesión de unidades de acceso de vídeo de longitud variable se denomina secuencia elemental de vídeo. La secuencia elemental de vídeo se convierte en una secuencia elemental de paquetes (PES: Packetized Elementary Stream) agrupando datos sucesivos de un número de secuencias elementales formando la carga útil de una cadena de paquetes. Se añade además una cabecera a cada paquete. Los PES pueden ser de cualquier tamaño hasta 64 KB. Las secuencias de PES pueden almacenarse o transmitirse tal como son, aunque habitualmente son convertidas en secuencias de transporte o secuencias de programa.
        En redes híbridas se utiliza por norma general la secuencia de transporte. Los paquetes de PES se cargan en los paquetes de transporte de forma que el primer byte de un paquete PES es el primer byte de carga útil del paquete de transporte y que un £nico paquete de transporte puede llevar
datos de un PES.

La secuencia de transporte proporciona las siguientes funciones:
 

Sincronización entre secuencias elementales
        En el receptor, un demultiplexador separa los paquetes de una secuencia de transporte o de una secuencia de programa en las secuencias elementales. Las unidades de acceso de cada secuencia elemental son almacenados en unos buffers FIFO esperando a ser decodificadas. Se usan
sellos temporales cuando un decodificador debe decodificar un unidad de acceso en particular. Existe un reloj muy preciso tanto en el multiplexador como en el receptor. Los sellos temporales son insertados en las unidades de acceso en el multiplexador y especifican el tiempo exacto en el cual la unidad de acceso ser  decodificada en el receptor. Por lo tanto, el multiplexador crear  sellos temporales basados en el tiempo actual más un pequeño offset que permita un determinado retardo
en la transmisión.
        Dos sellos temporales, el sello presentation video-conferencingtime stamp (PTS) y el decoder time stamp (DTS), están incluidos en la cabecera del paquete de PES. Éstos indican al decodificador cuando mostrar la información decodificada al usuario y cuando decodificar la información de los buffers de decodificación, respectivamente. Los relojes entre el codificador y el decodificador deben estar también sincronizados. Esta tarea se lleva a cabo a través de la utilización de referencias del reloj de programa (PCR: Program Clock References). Un PCR puede ser insertado en un paquete de TS (de transporte) en un campo justo después de su cabecera. Los PCRs son insertados en intervalos regulares para mantener la sincronización entre el codificador y el decodificador.

Errores
    Para proporcionar vídeo de una calidad aceptable al usuario, la red debe proporcionar cierto nivel de servicio. Variabilidad en el retardo de células (CDV: Cell Delay Variation), errores de bit y pérdida de células tienen severos efectos en la calidad del flujo de vídeo recibido. Un enlace de transmisión con una tasa de error de bit de 10^-5 sería aceptable para una transmisión de información en tiempo no real, con algún tipo de algoritmo de corrección de errores. En un flujo de información de vídeo, esta tasa de error causaría una seria degradación de la calidad del vídeo recibido. Vamos a ver con más detalle los problemas que causan la degradación de la calidad de servicio en la transmisión de multimedia.
 

Corrección y silenciamiento de errores

                Métodos de corrección de errores

    La corrección de errores es más difícil para información en tiempo real que para información que no requiere tiempo real. La naturaleza de tiempo real de los flujos de información de vídeo indica que no pueden tolerar los retardos que est n asociados a las técnicas de corrección de errores de las retransmisiones tradicionales. Por esta razón ARQ (esperar un reconocimiento o un timeout para retransmitir una imagen) no es útil para corregir errores en vídeo.

    El FEC ( Forward Error Correction) es una técnica de corrección de errores más utilizada. FEC toma un conjunto de símbolos que representan la información a la entrada y les añade redundancia, produciendo unos símbolos de salida diferentes y más grandes. FEC permite recuperar la información perdida pero a costa de requerir un ancho de banda mayor en la transmisión. Este tr fico añadido puede introducir congestión adicional en la red, provocando un mayor n£mero
de células perdidas.

              Métodos de silenciamiento de errores

    Para conseguir silenciamiento de errores en la transmisión de vídeo utilizan tres tipos de métodos:

                                                       Atrás|Índice|Siguiente