Digital codecs e frantumazione del suono

Molto tempo fa si registrava su supporti di cera, su bachelite, vinile, nastro magnetico, e su filo di metallo. Il metodo era quello analogico, e la trasposizione di quanto si riusciva a captare con i microfoni, veniva tradotta fedelmente secondo principi fisici vibratori, come la scrittura graffiata, quindi quella elettromagnetica, su nastro o filo metallo.
 In elettronica, per analogico si intende il modo di rappresentare il segnale elettrico all'interno di una data apparecchiatura (che lavora sotto potenziale elettrico); il segnale è detto analogico quando i valori utili che lo rappresentano sono continui (infiniti). Cioè se prendessimo in esame un intervallo spazio temporale A - B (tipo quello rappresentato da un potenziometro ed i suoi relativi valori Min(A) e MAX(B)) si passerebbe da Min a MAX per una infinità di mutazioni elettriche, non numerabili in R (dal latino continuum = congiunto, unito insieme). Analogico si contrappone a digitale (=discreto). Analogico significa "continuo", "non discreto".

In parole povere, se considerassimo il semplice ed unico potenziometro (quello del volume) presente su di un amplificatore di un impianto hi-fi, non saremo mai in grado, una volta mutata la posizione fisica del potenziometro, di riportarlo una seconda volta sulla stessa posizione (cioè sul medesimo valore di resistenza elettrica) o, più volgarmente, allo stesso e medesimo volume.WAV (o WAVE), contrazione di WAVE form audio file format (formato audio per la forma d'onda) è un formato audio di codifica digitale sviluppato da Microsoft e IBM per personal computer IBM compatibile. È una variante del formato RIFF di memorizzazione dei dati. I dati vengono salvati in "chunk" (blocchi), è simile anche al formato IFF o all'AIFF utilizzato dai computer Apple macintosh. Sia i file nel formato WAV che AIFF sono compatibili con i sistemi operativi Windows e Macintosh. I dati di questo formato, essendo progettato per computer che utilizzano processori Intel o compatibili, vengono memorizzati con la notazione little endian. Essendo basato sullo standard RIFF il formato supporta varie modalità di immagazzinamento dei dati ma nella pratica il più diffuso è il metodo PCM.

Il PCM provvede a salvare i dati audio senza nessun tipo di compressione dati, la forma d'onda viene memorizzata direttamente così com'è sia pure digitalizzata. Quindi i file risultanti sono di elevate dimensioni, ma non richiedono elevata potenza di calcolo per essere riprodotti, ed essendo la codifica lossless, viene spesso utilizzata dagli utenti professionali per memorizzare l'audio. Molti programmi supportano questo formato, dato che è molto diffuso ma non semplice da manipolare date le sue dimensioni molto elevate di byte.

La struttura di un file wave è molto modulare e permette di incapsulare flussi audio codificati in diversi modi con opportuni codec. In questo modo è possibile utilizzare il codec che offre le prestazioni migliori in rapporto allo scopo che si vuole raggiungere (registrazione ad alta fedeltà, flusso dati per lo streaming via rete ecc.) e alla sorgente da registrare (parlato, musica, ecc.). Allo stesso tempo, la registrazione può essere caratterizzata da altri parametri: il numero di bit di codifica (generalmente 8, 16 o 24) e la frequenza di campionamento (11, 22, 44.1, 48, 96 o 192 KHz). Tutti questi parametri influiscono sulla dimensione dei file.

Con la diffusione del file sharing su internet il formato WAV ha perso popolarità. Essendo un formato non compresso genera dei file molto grandi e quindi sulle reti telematiche si preferisce utilizzare formati compressi come MP3, Ogg Vorbis o AAC che pur essendo non lossless garantiscono comunque una discreta qualità audio con un file audio grande un decimo del WAV corrispondente. Si sono diffusi anche dei formati lossless ma compressi che pur se non raggiungono la compattezza dei file come l'MP3 garantiscono un'elevata qualità audio e un file grande dalla metà a un terzo del file WAV corrispondente. Questi formati sono il FLAC, TTA o Apple Lossless Encoding.

Nel campo professionale, all'interno del file sono state incluse oltre alle informazioni audio anche dei metadata che offrono informazioni aggiuntive quali ad esempio la data, la frequenza di campionamento e il Timecode. Questi tipi di file vengono chiamati Broadcast Wave File e possono avere la normale estensione WAV o BWF (Broadcast Wave Format). Lo standard adottato per questo tipo di metadata è il formato iXML.

I CD musicali presenti in commercio sono codificati in formato traccia audio. Inserendo un CD in un computer su cui viene eseguito Windows, le tracce sono viste dal sistema operativo come file .cda, e devono essere necessariamente convertite in file .wav per poter essere ascoltate con i player musicali più comuni come Windows Media Player o Winamp.
Analogamente, le tracce in formato wav o mp3 (o qualsiasi altro formato) devono essere di nuovo convertite e masterizzate in traccia audio .cda per poter essere ascoltate dai comuni lettori CD. Come descritto in precedenza i file wav possono essere codificati con una grande varietà di codecs per ridurre la dimensione dei file (per esempio i codecs GSM o mp3).
Questa tabella serve a comparare la qualità audio e il tipo di compressione di file monofonici dei vari codecs disponibili per i file.WAV includendo: PCM, ADPCM, GSM, CELP, SBC, TrueSpeech e MPEG Layer-3.

Formato Bitrate 1 Min = Esempio
11 025 Hz 16 bit PCM 176.4 kbit/s[1] 1292 kB[2] 11k16bitpcm.wav
8 000 Hz 16 bit PCM 128 kbit/s 938 kB 8k16bitpcm.wav
11 025 Hz 8 bit PCM 88.2 kbit/s 646 kB 11k8bitpcm.wav
11 025 Hz µ-Law 88.2 kbit/s 646 kB 11kulaw.wav
8 000 Hz 8 bit PCM 64 kbit/s 469 kB 8k8bitpcm.wav
8 000 Hz µ-Law 64 kbit/s 469 kB 8kulaw.wav
11 025 Hz 4 bit ADPCM 44.1 kbit/s 323 kB 11kadpcm.wav
8 000 Hz 4bit ADPCM 32 kbit/s 234 kB 8kadpcm.wav
11 025 Hz GSM6.10 18 kbit/s 132 kB 11kgsm.wav
8 000 Hz Mp3 16 k 16 kbit/s 117 kB 8kmp316.wav
8 000 Hz GSM6.10 13 kbit/s 103 kB 8kgsm.wav
8 000 Hz Lernout & Hauspie SBC 12 k 12.0 kbit/s 88 kB 8ksbc12.wav
8 000 Hz DSP Group Truespeech 9 kbit/s 66 kB 8ktruespeech.wav
8 000 Hz Mp3 8 k 8 kbit/s 60 kB 8kmp38.wav
8 000 Hz Lernout & Hauspie CELP 4.8 kbit/s 35 kB 8kcelp.wav


I file.WAV qui sopra, sono a tutti gli effetti file WAV – anche se codificati con il codec mp3 mantengono l'estensione “.wav”.
Il Wav è un formato proprietario a sorgente aperto che può essere riprodotto da quasi tutti i player musicali.

In elettronica, informatica e telecomunicazioni un codec è un programma o un dispositivo che si occupa di codificare e/o decodificare digitalmente un segnale analogico (tipicamente audio o video), affinché possa essere salvato su un supporto di memorizzazione o richiamato per la sua lettura o riproduzione oppure trasmesso a distanza su un canale di comunicazione.Tale programma può essere installabile/aggiornabile (su personal computer o apparecchiature multimediali predisposte) oppure essere integrato in un componente hardware dedicato (ad es. nei lettori CD o DVD casalinghi o in alcune schede video/audio per PC).

I codec effettuano la compressione dati (e/o la decompressione in lettura) in modo da poter ridurre lo spazio di memorizzazione occupato a vantaggio della portabilità o della trasmissività del flusso codificato su un canale di comunicazione. Si suddividono in base alla modalità in cui effettuano la compressione:
con perdita di informazione (lossy)
senza perdita di informazione (lossless)

Per realizzare tale compressione si fa ricorso alla riduzione della precisione dei colori dei singoli pixel (codec video) o delle frequenze da riprodurre (in alcuni codec audio vengono soppresse le frequenze non udibili dall'orecchio umano), alla eliminazione delle ridondanze o alla scrittura delle sole differenze (codec video) rispetto ad una immagine di riferimento.
Per ciascun tipo di compressione esistono vari tipi di codec, differenti tra loro per il tipo di segnale su cui devono operare e per l'algoritmo di codifica/compressione in essi implementato.
In un sistema di telecomunicazioni oltre alla compressione dati, cioè la codifica di sorgente, il codec attua anche la codifica di canale sui dati da trasmettere sul canale.
Nel sistema operativo Microsoft Windows, i codec sono delle librerie con estensione .dll, che i vari player audio e video gestiscono come dei plug-in.
Nel sistema operativo Mac OS X i codec sono gestiti dal sistema QuickTime che li utilizza come plug-in con estensione .component memorizzati nella cartella QuickTime che si trova nella cartella Libreria.
Il codec permette di ascoltare formati proprietari e aperti da qualunque lettore di file, mantenendo separati il livello fisico del formato da quello logico della sua rappresentazione.

In informatica, elettronica e telecomunicazioni la compressione audio è una tecnica di elaborazione dati, attuata a mezzo di un codec audio, che permette di ridurre le dimensioni (anche di molto) di un file audio o la banda passante richiesta per una trasmissione audio su un canale di comunicazione. Un file è una sequenza di cifre binarie (bit) utilizzata come veicolo di informazione. Comprimere significa ridurre il numero delle cifre che costituiscono la sequenza mantenendo l'informazione inalterata o in un intorno dell'informazione originaria (ossia facendo in modo che la nuova informazione approssimi quella precedente). Esistono due tipi di compressione:
con perdita (lossy): quando l'informazione contenuta nel file compresso è minore di quella contenuta nel file di origine
senza perdita (lossless): quando l'informazione contenuta nel file compresso è identica a quella contenuta nel file di origine

La prima permette compressioni maggiori, ma a scapito della qualità sonora.

Usando un algoritmo di compressione senza perdita, dal risultato della compressione si può riottenere tutta l'informazione originaria. In questo caso la riduzione massima generalmente ottenibile, utilizzando algoritmi studiati appositamente per l'audio è all'incirca del 60%, ma solo con alcuni tipi di suono. Si possono utilizzare gli stessi algoritmi generali di compressione (come per esempio ZIP o Gzip) ma i risultati in termine di riduzione sono inferiori.

Esempio: FLAC, APE, ALE
Compressione con perdita
Dal risultato della compressione audio con perdita non si può più ottenere un suono identico all'originale ma la riduzione ottenibile è molto spinta: con rapporti di compressione di 10 a 1, il risultato è quasi indistinguibile dall'originale ma ci si può spingere anche oltre a discapito della qualità.
Gli studi di psicoacustica hanno permesso di accertare che l'uomo non è sensibile nello stesso modo a tutte le frequenze e che un suono ad alta intensità ne maschera uno con frequenza vicina ma intensità più bassa. Sfruttando queste ed altre considerazioni, si può pensare di eliminare l'informazione che non verrebbe comunque percepita ed ottenere quindi un buon rapporto di compressione.

L'approccio Time/Frequency
I principali algoritmi di compressione lossy dei segnali audio si basano su tecniche di tipo time/frequency, per mezzo delle quali, il segnale audio viene preliminarmente scomposto in finestre temporali e processato da un banco di filtri digitali, al fine di rappresentarlo in molteplici sotto-bande nello spettro audio. Successivamente, ciascuna sotto-banda viene quantizzata considerando sia la potenza in essa convogliata (a maggior potenza corrisponde, come regola generale, una maggiore quantizzazione), sia la sensibilità dell'udito umano, nonché gli effetti psico-acustici. Uno dei principali limiti dell'approccio time/frequency risiede nella possibilità che le proprietà intrinseche del segnale audio da comprimere non siano stazionarie nella finestra temporale di analisi. In questo caso, il rumore di quantizzazione introdotto in ciascuna sotto-banda, distribuendosi sull'intera finestra temporale di analisi, può indurre dei gravi effetti distorsivi che deteriorano la qualità del segnale. Per ovviare a tale problema, in molti degli standard di uso comune, sono state adottate tecniche di adattamento dinamico della finestra temporale di analisi (in presenza di segnali non stazionari si riduce la dimensione della finestra di analisi) e di predizione nel dominio della frequenza.

mp3 (MPEG-1 Layer III) è stato introdotto negli anni ottanta ed è il più popolare. Essendo il più antico, è anche il meno efficiente e spesso il peggiore in termini di qualità.
Windows Media Audio (WMA) è molto diffuso sui sistemi Windows.
Ogg Vorbis è un codec più efficiente dell'mp3 ed è open source (ossia liberamente distribuibile e modificabile)
AAC è stato reso popolare dalla Apple. Apple's iTunes Music Store fa uso di file compressi con 128Kbps CBR AAC e lo standard video MPEG4 (nonché MPEG2) raccomanda l'uso dell'AAC audio.
Dolby Digital (AC3) può comprimere fino a 6 canali audio, di cui 5 a piena larghezza di banda ed uno per gli effetti a bassa frequenza (LFE), fino a 384 kbit/s. Viene utilizzato nei DVD e nel sistema americano ATSC DTV.
MPC o Musepack è un formato opensource con una qualità maggiore dell'mp3 a parità di bitrate.

Bitrate
I file multimediali sono per loro natura connessi al tempo che scorre. In altri termini ad ogni secondo è associato un certo contenuto informativo e quindi una certa sottosequenza di cifre binarie. Il numero di cifre binarie che compongono queste sottosequenze è detto bitrate. In altre parole il bitrate è il numero di cifre binarie impiegate per immagazzinare un secondo di informazione. Questo può essere costante per tutta la durata del file o variare all'interno di esso. Ad esempio i cd musicali vengono campionati (registrati) ad una frequenza pari a 44.100Hz. Da ciò si evince che ogni secondo si hanno 44.100 valori registrati dall'ipotetico microfono che vanno poi moltiplicati per i 2 canali del suono stereo che vanno a loro volta moltiplicati per 2 poiché la registrazione avviene a 16 bit (pari appunto a 2 byte). Quindi avremo:    44.100 x 2 x 2 x 60 (secondi) = ~10 MB ogni minuto
La compressione, diminuendo la lunghezza globale del file, diminuirà di conseguenza la lunghezza media delle sottosequenze ossia diminuirà il bitrate medio. Il bitrate medio diventa dunque in questi casi l'indice dell'entità della compressione. Ad esempio se il file di origine possedesse un bitrate di 1411 Kbit/s e il file compresso possedesse un bitrate medio di 320 Kbit/s, allora avremmo ridotto di un fattore pari a circa 4.5.

Una compressione lossy effettua un compromesso fra la perdita d'informazione e la dimensione del file finale, mentre una lossless deve bilanciare la dimensione del file finale con i tempi di esecuzione dell'algoritmo.

Esistono anche codec in grado di utilizzare un approccio ibrido, utilizzando una compressione lossy e generando un blocco di correzione, in modo da ricostruire l'onda sonora senza alterazioni qualitative; attualmente i codec in grado di adottare anche questa strategia sono WavPack, OptimFrog DualStream e MPEG-4 SLS.

Altri codec che ridurranno la dimensione del flusso di informazioni, consentendo risparmi notevoli, ma danneggiando le informazioni originali dei flussi, riducendone le qualità.

Senza compressione
AIFF
WAV
Compressione lossless
Apple Lossless Encoding
FLAC
IFF
Compressione lossy
Advanced Audio Coding
ATRAC
Dolby Digital
Digital Theater System
G.729
MP3
AAC
Mp3PRO
Musepack
RealAudio
Speex
Vorbis
Windows Media Audio
SILK (Skype)

In informatica e telecomunicazioni con il termine compressione dati si indica la tecnica di elaborazione dati che, attuata a mezzo di opportuni algoritmi, permette la riduzione della quantità di bit necessari alla rappresentazione in forma digitale di un'informazione. La compressione dati viene utilizzata sia per ridurre le dimensioni di un file, e quindi lo spazio necessario per la sua memorizzazione, sia per ridurre l'occupazione di banda necessaria in una generica trasmissione dati digitale come ad esempio una trasmissione televisiva digitale. Nelle trasmissioni digitali tale compressione dell'informazione è operata all'interno della cosiddetta codifica di sorgente in modo da eliminare la ridondanza e ottenere un'alta efficienza del codice di sorgente. L'importanza della compressione dati sta nel fatto che in sua assenza non sarebbe possibile usufruire di tutta una vasta collezione di contenuti informativi attraverso la rete Internet per limitatezza della banda disponibile dei mezzi trasmissivi.

Le varie tecniche di compressione organizzano in modo più efficiente i dati, spesso perdendo una parte dell'informazione originale, al fine di ottenere una rappresentazione dell'informazione più compatta quindi comportante minori risorse per la sua memorizzazione e trasmissione. Come controparte la compressione dati necessita però di potenza di calcolo per le operazioni di compressione e decompressione, spesso anche elevata se tali operazioni devono essere eseguite in tempo reale.

Il parametro di qualità che valuta l'efficienza della compressione è il rapporto o tasso di compressione.

Le tecniche di compressione dati si dividono in due grandi categorie:
compressione dati lossy: comprime i dati attraverso un processo con perdita d'informazione che sfrutta le ridondanze nell'utilizzo dei dati;
compressione dati lossless: comprime i dati attraverso un processo senza perdita d'informazione che sfrutta le ridondanze nella codifica del dato.

Tipicamente la scelta sul tipo di compressione da operare e le particolarità tecniche su cui esse si basano dipendono dalla particolare applicazione o destinazione d'uso dando vita alle seguenti forme di compressione:
la compressione audio;
la compressione video;
la compressione dell'immagine;
la compressione multimediale.

Di norma file e programmi non tollerano alcuna perdita di informazione, come invece possono le immagini relative a foto, il segnale video o il segnale audio.

Le tecniche senza perdita (lossless) consentono di preservare l'informazione originale in ogni sua parte. È l'unica via possibile quando si devono comprimere file di testo, programmi, documenti, database, schemi elettrici ecc. Due esempi sono il formato ZIP o il formato RAR, i quali consentono di archiviare o trasmettere uno o più file risparmiando sulle risorse necessarie (spazio su disco o tempo di trasmissione). Al momento in cui vengono recuperati i file dallo ZIP o RAR (decompressione) questi risultano indistinguibili dagli originali.

Un altro esempio di caso in cui viene usata la compressione senza perdita è quello delle immagini non fotografiche, come gli schemi, i disegni o le icone. Per questo scopo esistono formati come il GIF o il più recente PNG. L'immagine compressa con uno di questi formati mantiene esattamente l'aspetto originale fino al dettaglio più insignificante. Le prestazioni di questo tipo di compressione dati sono tipicamente più contenute e limitate.

D'altro canto, le tecniche con perdita di informazione (lossy) permettono anche delle compressioni molto spinte, quindi un grande risparmio di risorse, a discapito però della qualità dell'immagine o dell'audio che si è voluto comprimere. Generalmente queste tecniche si usano per comprimere i file multimediali. Pur mantenendo minima la perdita di qualità, il risparmio rispetto ad una compressione lossless sulla stessa informazione è sempre decisamente apprezzabile.

Le informazioni multimediali come audio o video, in origine sono infatti troppo grandi per essere agevolmente trasmesse o memorizzate, quindi si preferisce avere una piccola riduzione della qualità (o distorsione del contenuto), ma nel contempo file molto più leggeri. Alcuni esempi sono: la compressione di immagini in formato JPEG, largamente usata in fotografia digitale e sul Web, la compressione video in formato XviD oppure la compressione audio in formato MP3. Infine, è importante puntualizzare che nel caso di compressione lossy di contenuti multimediali (es. MPEG), gli algoritmi di compressione di uso comune sono stati concepiti per minimizzare la distorsione percepita dall'utente in modo da rendere accettabile la degradazione del contenuto multimediale risultante.

Algoritmi di compressione: ( Questi algoritmi a seconda delle funzioni che hanno integrate al loro interno, si comporteranno in modo diverso l'uno dall'altro, producendo tipi diversi di sonorità, timbriche, armoniche ecc... perforando le informazioni e introducendo nei flussi originali mancanze di vario genere, fino, ad aggiungere ad esse addirittura artefatti di manipolazione non desiderati. Da questo tipo di compressioni, deriva l'incoerenza sonora della musica moderna digitalizzata, rispetto a quella analogica del passato, la reale scarsa qualità armonica e la fittizzia pulizia armonica ottenuta per cancellazione dei dati. Dal momento che a seconda del codec utilizzato, si avranno una serie di mutamenti dell'intero spettro sonoro, ad ogni manipolazione, corrisponderà una diversa esecuzione reale della registrazione originale ).

Senza perdita di informazioni:
Run-length encoding
PackBits
PCX
Codifica a riduzione locale di Entropia (codificazione entropica)
Codifica di Huffman
Codifica aritmetica
Codifica a dizionario
DEFLATE
LZ77 e LZ78
Lempel-Ziv-Welch (ZIP)
LZMA
Trasformata di Burrows-Wheeler
PPM
Con perdita di informazione:
Trasformata discreta del coseno (DCT)
MPEG (Primo metodo di compressione ad alta diffusione basato su DCT e Delta)
JPEG (Compressione d'immagini basato su quantizzazione, DCT e Huffman)
Compressione frattale
Trasformazione frattale
Wavelet
MP3 (compressione audio basata su compressione simil-wavelet e DCT)
JPEG2000 (compressione d'immagini che usa wavelet, Huffman e quantizzazione)

Artefatti di compressione

Un artefatto di compressione è il risultato di uno schema di compressione dati aggressivo applicato ad una immagine, audio, o video che rimuove alcuni dati meno importanti dal contenuto complessivo, ma che tuttavia risulta visibile e sgradevole all'utente. Gli artefatti in dati time-dependent, ovvero dipendenti dal tempo, come audio o video sono spesso il risultato dell'errore latente nella compressione dati con perdite.

Tecnicamente parlando, un artefatto di compressione è una classe particolare di errori sui dati che spesso è la conseguenza della quantizzazione nella compressione dati con perdite.

Gli artefatti di compressione sono visibili in molti media di largo uso, come nei DVD e anche nei comuni formati di file per computer come JPEG, MP3, o MPEG. I media non compressi (come i Laserdisc, CD Audio e file WAV o i media compressi senza perdite, come i FLAC) non sono soggetti agli artefatti di compressione.

Artefatti di compressione nella codifica delle immagini

Quando si utilizza la trasformata discreta del coseno (DCT) per la codifica a blocchi, come nelle immagini in formato JPEG, è possibile la comparsa di diversi tipi di artefatti, come un contorno nelle zone uniformi, un rumore scalettato lungo linee curve e bordi, e/o un effetto scacchiera nelle regioni più "dense".

Quando si utilizza una codifica a predizione nei filmati, come negli MPEG-1, gli artefatti di compressione tendono a restare visibili per diverse generazioni di frame decompressi, portando alla comparsa di un effetto "dipinto", come se l'immagine fosse dipinta dal pennello di un artista invisibile.

Quando si utilizza una codifica a predizione di movimento, come nei MPEG-2 o MPEG-4, gli artefatti di compressione tendono a muoversi con lo scorrimento ottico dell'immagine, causando un particolare effetto in cui della sporcizia pare muoversi assieme agli oggetti nella scena.

Errori presenti nel flusso dati posso causare errori come grandi errori di quantizzazione, o possono interrompere completamente l'analisi del flusso per un breve periodo di tempo, causando un disfacimento dell'immagine. Laddove si sono verificati errori gravi nel flusso dati, non è insolito che il decoder continui ad applicare effetti "dipinto" all'immagine danneggiata, creando un effetto di "immagine fantasma".

Per interrompere l'incedere degli artefatti di compressione, molti sistemi inviano di tanto in tanto un intero frame compresso senza predizione, di solito all'inizio di un taglio e quindi ad intervalli regolari di tempo.

Nella codifica MPEG delle immagini, questi sono conosciuti come "I-frame", dove la 'I' sta per "intraframe compression".

Riduzione degli artefatti sulle immagini

Diversi approcci sono stati proposti per ridurre gli effetti della compressione sulle immagini, ma per poter utilizzare tecniche standard di compressione/decompressione e mantenere i benefici della compressione (per esempio, minori costi di trasmissione e di immagazzinamento), molti di questi metodi si concentrano sul "post processing" — cioè, nella rielaborazione delle immagini in fase di ricezione o visualizzazione. Nessuna di queste tecniche di post-processing ha dimostrato di essere efficace in tutte le situazioni e di conseguenza nessuna tecnica ha ottenuto un largo consenso; inoltre alcune tecniche sono state implementate e utilizzate in sistemi proprietari. Molti software di editing immagini, per esempio, hanno algoritmi proprietari di riduzione degli artefatti JPEG inclusi in essi.

Artefatti di compressione nella codifica audio

Una tecnica consiste nell'usare un bit rate più basso ricampionando l'audio. Riducendo la frequenza di campionamento, le frequenze più elevate devono essere rimosse per rispettare il teorema del campionamento di Nyquist-Shannon. Se il filtro anti-aliasing non funziona correttamente, si avverte una distorsione digitale o aliasing nella forma di frequenze non armoniche riflesse attorno alla frequenza di Nyquist. (per esempio un tono a 22,85 kHz elaborato con una frequenza di Nyquist di 22,05 kHz risulterà come un tono di 22.05 - (22,85 - 22,05) = 21,25 kHz. In generale outputF = NF x 2 - inputF). Questo può essere impercettibile, ma livelli maggiori di distorsione posso sembrare simili alla ring modulation. Diminuendo la quantità di dati (numero di bit) catturati per ogni campione può causare una perdita di dettaglio e di range dinamico nell'audio. La perdita di qualità in entrambi i metodi sarà uniforme per tutta la registrazione.

Un'altra tecnica consiste nel cercare di rimuovere suoni che l'orecchio umano tipicamente non può percepire. Se una persona non può percepire la differenza, i dati risultanti saranno più semplici (e di conseguenza potranno avere una compressione migliore usando tecniche lossless). Per esempio, l'orecchio umano in genere non è in grado di percepire un suono debole simultaneamente ad un suono simile ma di intensità maggiore. Una tecnica di compressione con perdita può identificare questo suono debole e cercare di rimuoverlo. Poiché nessun algoritmo è perfetto e altri compromessi possono essere applicati per eliminare dati aggiuntivi per ridurre il data rate, ciò comporta in alcuni casi l'eliminazione di suoni percepibili. Ma poiché questi suoni sono comunque teoricamente difficili da percepire, il risultato sarà generalmente di suono appiattito, o "sporcato".

Molti sistemi cercano di rimpiazzare le serie di campioni audio con altre rappresentazioni. Di solito queste rappresentazioni rendono più semplice il tentativo di eliminare suoni non percepibili e quindi rendono più semplice comprimere i dati utilizzando tecniche tradizionali di compressione senza perdita. Una tecnica comune è quella di rappresentare l'audio come la somma di una serie di onde di seno. La rappresentazione può non essere perfetta; in cambio di una più semplice descrizione compressa del suono, l'accuratezza può essere sacrificata.

Molti sistemi di compressione audio si sforzano di mantenere un data rate di riferimento, di solito espresso in bit di dati per secondo di audio. Quando viene utilizzato un data rate costante, le porzioni semplici della registrazione (per esempio un tono di silenzio) saranno facilmente compresse rispettando il data rate di riferimento; la riproduzione risultante sarà molto simile all'audio originale. Man mano che si registrano sezioni più complesse, il sistema sarà obbligato a ridurre seriamente la qualità per rispettare il data rate fissato; la riproduzione risultante mostrerà più artefatti. Molti sistemi di compressione supportano la codifica Variable Bit Rate, che modifica il data rate di riferimento cercando di mantenere però costante la qualità di riproduzione.

Codec audio utilizzati oggigiorno

Apple Lossless Encoding
Direct Stream Transfer (DST)
Free Lossless Audio Codec
LA (Lossless Audio)
Lossless Predictive Audio Compression (LPAC)
Lossless Transform Audio Compression (LTAC)
Meridian Lossless Packing (MLP)
Monkey's Audio (APE)
OptimFROG
RealAudio Loseless
RKAU (RK Audio)
Shorten (SHN)
True Audio free lossless codec (TTA)
WavPack
Windows Media Audio 9 Lossless
Dolby TrueHD
DTS-HD Master Audio

Compressione con perdita dei dati

A/52 or AC-3 AC-3 or Dolby Digital A/52
ADPCM (Adaptive Differential Pulse Code Modulation)
AAC Advanced Audio Coding (MPEG-2 e MPEG-4)
ADX ([1]) (usato principalmente nei giochi)
ATRAC Adaptive TRansform Acoustic Coding (Usato nei MiniDisc)
DTS (DTS Coherent Acoustics)
DTS-HD High Resolution
MP1 (MPEG audio layer 1)
MP2 (MPEG audio layer 2) Layer 2 audio codec (MPEG-1, MPEG-2 e non-ISO MPEG-2.5)
MP3 (MPEG audio layer 3) Layer 3 audio codec (MPEG-1, MPEG-2 e non-ISO MPEG-2.5)
Musepack
Perceptual Audio Coding
TwinVQ
Vorbis
WMA (Windows Media Audio)

Specifici per la voce (flusso dati basso, ottimizzato per la telefonia e il VoIP)
GSM
G.711 (a-law e u-law)
G722
G722.1
G723
G.723.1
G.726
G.728
G.729
G.729a
HILN (MPEG-4 Parametric audio coding)
AMR
Speex, patent free
IMBE
AMBE
VSELP
CELP
SMV
EVRC
QCELP

Perceptual Audio Coding, usato dalla radio via satellite e IBOC radio digital

Codec video
Senza perdita di dati:

CorePNG
H.264 High Profile supporta la codifica senza perdita
Huffyuv
MSU Lossless Video Codec
Lagarith
LCL
Tscc TechSmith Camtasia losslesscoder
CamStudio Lossless Codec
Castelli

Compressione con perdita dei dati

Audio Video Standard (AVS)
Cinepak
Dirac(BBC) codec open source sviluppato dall'emittente di Stato Inglese
H.261
H.263
H.263v2
Indeo 3/4/5
KVCD
MJPEG
MPEG-1 Video
MPEG-2 Video
MPEG-4 Advanced Simple Profile Video
DivX
XviD
3ivx
MPEG-4 Advanced Video Coding vedi H.264
x264
Nero Digital
Sorenson AVC Pro codec, nuova implementazione Sorenson
Ogg Tarkin
On2 VP3, VP6
Pixlet
RealVideo
VC-1
Ogg Theora
WMV
ASF (Parte di Windows Media)
WAX (Parte di Windows Media)
JPDM JPDMovie

Ciò significa semplicemente, che qualora, a parità da registrazione originale di una certa qualità, ogni volta che si procederà a mutarne la quantità di dati originali per ridurli in qualche modo,  si peggioreranno semplicemente le cose dal punto di vista qualitativo. In termini di psico acustica, poi potremmo anche convincerci o arbitrariamente affermare che non vi siano differenze apprezzabili, e il tipo di compressione sia ottimo, ma ad una attenta analisi di spettro di tutto il range di frequenze, scopriremmo successivamente che vi sono state delle modifiche sostanziali, armoniche ecc... anche se al primo ascolto, non percepibili coscientemente.

I tipi di peggioramento, individuati in circa un centinaio di possibili difetti annoverabili fra quelli di tipo consapevole come inconsapevole, per scelte di mercato, a fini puramente economici e di spazio/tempo che i flussi occupano sulle linee, sui supporti, o nelle memorie, sarà un prodotto dell'accomodamento dell'industria dei media a standard sempre inferiori, sebbene cerchino di convincerci che le cose vadano sempre meglio. Basti pensare ai 7 livelli distinti di flusso dei filmati in Full HD ad esempio. Non c'è limite a peggioramenti di questo tipo, essendo illimitato il numero di codec che si potrebbero utilizzare a seconda delle esigenze particolari degli hardware e delle marche.

Non si è fatto un solo passo in avanti, da almeno una trentina di anni, in termini di qualità effettiva delle registrazioni, sebbene la tecnologia sia andata avanti a passi da gigante. Pare non vi sia stata alcuna esigenza, di migliorare le cose, e che si sia seguita, la sola via che produce al guadagno più facile, veloce e sempre crescente, da parte di chi ha in mano l'industria, senza chiedere il parere a nessuno. I clienti potenziali di tutto il mondo, sono passati all'mp3 senza soffrirne troppo, anche se le armoniche sono andate a farsi benedire, ed è rimasta solo la metà dello spettro musicale che ascoltavamo prima.

Anzi, meno della metà. E questa, dal punto di vista sensoriale, percettivo e neuronale, foriera di problemi di diverso tipo, oltre che di piacere, arte ed emozioni. La storia non finisce qui.

 

Wiki e Jedi