actions

短時間フーリエ変換

短時間フーリエ変換(たんじかんフーリエへんかん、short-time Fourier transform、short-term Fourier transform、STFT)とは、関数に窓関数をずらしながら掛けて、それにフーリエ変換すること。音声など時間変化する信号の周波数位相(の変化)を解析するためによく使われる。

理論上フーリエ係数を求めるには無限の区間に渡って積分を行わなければならないが、実験値等からフーリエ係数を求めるには範囲を区切らなければならない。そのために、ある範囲の実験値のフーリエ係数を求めるには、このある範囲の実験値が周期的に無限に繰り返されていると仮定して計算するのが一般的である。だがここで問題なのは、ある範囲の最初の値と最後の値を無理やりつなげることによって発生する不連続な要素である。これを解決するため、中央が 1 付近の値でその範囲外で 0 に収束する関数を掛けて、不連続な要素を極力排除することが行われる。これが短時間フーリエ変換である。このとき、この掛け合わせる関数を窓関数と言う。

STFTは以下のように数式表現できる([math]i[/math]虚数単位):

[math] \mathrm{STFT}_{x,w} (t,\omega)=\int_{-\infty}^{\infty} x(\tau)w(\tau-t)e^{-i \omega \tau}\, d\tau[/math]

ここで[math]w(t)\,[/math]は窓関数であり、普通[math]t=0\,[/math]付近に中心をもつ山の概形をしていて、[math]t=0\,[/math]の付近から離れると 0 になる関数である。また[math]x(t)\,[/math]は変換される関数(信号)である。そして、[math] \mathrm{STFT}_{x,w} (t, \omega) \,[/math]は時刻[math]t\,[/math]角周波数[math]\omega\,[/math]のスペクトルを表現する複素数である。

離散時間に関するSTFTは次のようになる:

[math] \mathrm{STFT}_{x,w} [n,\omega]=\sum_{m=-\infty}^{\infty} x[n+m]w[m]e^{-i \omega m}[/math]

連続時間での式と同様に[math]w[n]\,[/math]は窓関数、[math]x[n]\,[/math]は変換される関数である。この式では[math]n\,[/math]が離散値であるが[math]\omega\,[/math]が連続でもよい。しかし通常高速フーリエ変換を用いて計算機で計算されるので、[math]\omega\,[/math]も離散化される。

STFTの絶対値を2乗することで、パワースペクトルの時間変化が得られる:

[math] \mathrm{power}_{x,w} (t, \omega) = | \mathrm{STFT}_{x,w} (t, \omega) | ^ 2 \,[/math]

また、位相スペクトルの時間変化は、STFTの偏角で得られる:

[math] \mathrm{phase}_{x,w} (t, \omega) = \arg \mathrm{STFT}_{x,w} (t, \omega) [/math]

STFTの問題点である不確定性原理

不確定性原理(フーリエ変換の不確定性原理)とは、時刻の不確定さと周波数の不確定さの間に

[math] \Delta x \Delta \omega \geq \frac{1}{2} [/math]

の関係があることである。一般化された言い方では、フーリエ変換で結ばれた2つの変数の対に対して上のような関係がなりたつことを指す。

STFTの問題点の一つは解像度が限られてしまうことである。窓関数の窓の幅などの形状によって、周波数分解能を良くするか時間分解能を良くするかのトレードオフが決まってしまう。幅の広い窓は周波数分解能が良いが時間分解能は悪い。逆に幅の狭い窓は時間分解能は良いが周波数分解能が悪い。

ファイル:STFT - windows.png
STFTの解像度の比較。左は時間分解能が良く、右は周波数分解能が良い

この事実はウェーブレット変換を作る原因にもなった。ウェーブレット変換ではSTFTと異なり時間分解能と周波数分解能が両立することが出来る。

量子力学における運動量位置に関するハイゼンベルクの不確定性原理とは普通区別されるが、実はフーリエ変換の不確定性原理に基因するものである。シュレディンガー方程式によれば、定常な場合、

[math] \psi(x,t) = \psi(x)e^{- {i E t \over {\hbar}} } = \psi(x)e^{- i \omega t }[/math]

であり、フーリエ級数の形になっているので、[math] \Delta x \Delta \omega \geq 1 / 2 [/math]が成り立つ。これに[math]\omega = p / \hbar[/math]を代入したものが、いわゆるハイゼンベルクの不確定性原理の式

[math]\Delta x \Delta p \geq \frac{\hbar}{2}[/math]

である。

周波数が 10,25,50,100 Hz の順に 5 秒ごとに変化していく信号を考える。

[math] x(t) = \cos ( 2 \pi f t), \,[/math]
[math] f / \mathrm{Hz} = \begin{cases} 10, & \mbox{if } 0 \leq t / \mathrm{s} \lt 5 \\ 25, & \mbox{if } 5 \leq t / \mathrm{s} \lt 10 \\ 50, & \mbox{if } 10 \leq t / \mathrm{s} \lt 15 \\ 100, & \mbox{if } 15 \leq t / \mathrm{s} \lt 20 \end{cases} [/math]

窓の幅を変えてSTFTすると次のようなスペクトラムが得られる。25ミリ秒の窓は信号の周波数変化の時刻を完全に識別できているが、信号の周波数を特定できない。一方で1000ミリ秒の窓は信号の周波数を特定できるが、信号の周波数変化をしたところがボケてしまっている。

関連項目