STRAIGHTにおける音源情報表示

ここでは,STRAIGHTにおける音源情報表示の見方について,簡単に説明します.

音声ファイルを読込んでSTRAIGHTの音源情報分析を起動してしばらくすると,上のような分析結果表示画面が現れます.これらの各々のグラフについて,以下で説明します.

このマップは、各フィルタの出力を用いて求めたフィルタの中心周波数から出力の瞬時周波数への写像の不動点と、それぞれのフィルタ出力についての主要正弦波成分と背景雑音の比(C/N比:Carrier to Noise ratio, 通信工学から用語を借りています。正弦波成分を搬送波とみなした場合の信号と雑音との比です。)を表しています。不動点は○印で表されています。C/N比は疑似カラーで表されています。C/N比が高い部分が寒色、C/N比が低い部分が暖色になっています。相対的なノイズ分の多さが色で表されていると解釈(イメージを描く)すると、直感にも整合すると思います。基本周波数はC/Nが最も高い不動点として選択されます。(この選択論理は安直です。周辺や前後の情報を適切な確率モデルの下で評価して選択すべき不動点を決定するという論理をきちんと組めば、基本周波数抽出の頑健性は更に向上するはずです。)マップの縦軸は分析に用いたフィルタの番号(channel #)を示しています。フィルタ番号とフィルタの中心周波数の間には、以下の関係があります。

fc=fl*2^((nf-1)/24)

ここでfcはフィルタの中心周波数、flは、基本周波数の探索範囲の下限、nfはフィルタ番号を表しています。フィルタ間隔を半音の半分にしているのは、基本周波数の抽出という観点だけに立てば『過剰品質』になります。しかし、ここでは信号の中に含まれている音源についての情報を、できるだけ豊かな表現で可視化することも目的の一つにしていますので、ある程度は正当化できるでしょう。

このグラフは、有声/無声音の判定のための補助情報として用いられています。青い線が全帯域のエネルギー、赤い線が3kHz以上の周波数帯域に含まれるエネルギーを表しています。このエネルギーに基づいたアドホックな判定論理は、STRAIGHTの弱点の一つです。なお、有声/無声の判定には、最初のマップで求められる不動点におけるC/N比の情報も用いられています。

このグラフは、求められた基本周波数を表しています。緑色の線が最初のマップの不動点から直接求められた基本周波数です。各時刻において最大のC/N比を持つ不動点を選択し、その不動点の属するフィルタの出力の瞬時周波数と隣接するフィルタの瞬時周波数を用いて、実際の不動点の周波数を補間して求めています。黒い線は、その基本周波数の情報を用いて、適応的時間窓を設計し、第三調波成分までに含まれる基本波の情報を用いて求めた基本周波数です。不動点を追跡するアルゴリズムの閾値をもう少し緩めた方が歌唱の分析用には適しているようです.

このグラフは、不動点の場所でのC/N比を表しています。0dBというC/N比は、抽出された正弦波とそれ以外の背景雑音成分とのレベル差がほとんど無いことを示しています。通常の発声であれば,40 dB以上の値が得られます.緑色の線は、基本周波数として選択された不動点に対応する不動点のC/N比を表します。母音の中央部分では、基本波成分は他の不動点よりも遥かに高いC/N比であることが分かります。赤い線は、複数の調波成分から求められた基本周波数に対応するC/N比です。緑の線と赤い線は利用している周波数帯域が異なりますので、C/N比の意味は、それぞれで異なっています。