Signal domain
Arrivati a questo punto abbiamo una serie di audio features, che si trovano nel time domain. Il time domain, è catturato in un waveform, tutte le informazioni sono contenute qua dentro, ma abbiamo un grande problema. La frequenza nel time domain non è rappresentata e quindi non abbiamo nessuna, ed è una delle proprietà più caratterizzanti ed importanti del suono.
Quello che vogliamo fare è convertire il dominio dal time alla frequency, e quindi per ottenere questo frequency domain si applica la Trasformata di Fourier al time domain. Il risultato dopo la Trasformata di Fourier è uno spectrum, con sull'asse delle x la frequenza e sull'asse delle y la magnitude. In poche parole, il frequency domain contiene tutte le informazioni sulla frequenza. A questo punto con questo ultimo dominio non abbiamo informazioni su entrambi, il tempo e la frequenza.
Dunque il terzo punto, è quello di raggiungere il time-frequency representation, e le sue proprietà più importanti sono:
- Spectogram
- Mel-spectogram
- Constant-Q transform
Il più "famoso" è lo Spectogram che si ottiene applicando un'altra Trasformata di Fourier. Abbiamo nello spectopgram informazioni sul tempo e sulla frequenza. Viene rappresentata la frequenza nel tempo tramite i colori, e più sono chiari maggiore è il contributo della banda della frequenza in quello specifico momento.
Quindi ricapitolando abbiamo ottenuto lo spectogram tramite i seguenti passaggi:
flowchart TD Time-domain-->|Fourier-Transform|Frequency-domain Frequency-domain-->|Fourier-Transform|Time-frequency-representation
