音楽をやっていると、「倍音が豊かで〜」とか「倍音成分が〜」みたいな話がよく出てくる。よく出てくるのだけれど、じゃあ倍音ってなんなの、と聞かれてきちんと答えられるひとはそう多くないような気がする。わたし自身、ベーシストであり、かつレコーディングエンジニアでもあるので、倍音がどうだとか周波数特性がどうだとかいう話には日常的に触れているのだけれど、このあたりの話を「ちゃんと」理解するためにはどうしても避けて通れない概念があると思っていて、それがフーリエ合成とフーリエ変換である(あ〜まってブラウザバックしないで)。フーリエ変換、名前だけ聞くとなんだか難しそうだが、音楽に関わるひとにとってこれを「なんとなく」でも理解しておくことの価値はかなり大きいと思う。というわけで、今日はフーリエ変換の話をして、そこから「音色とはなにか」をちゃんと定量的に語れるようになるところまでいきたい。
すべての波形はサイン波の足し算でできている
まず大前提として知っておいてほしいのが、全ての有限の範囲の波形は、原理的にはサイン波の足し算で表すことができる、という事実だ。サイン波というのは、高校で習ったあの f(x)=sin(x) のあれである。
まって!! 帰らないで!!! 高校数学0点でもわかるように書くから! あれのグラフってなんかすごくなめらかな波になりますよね。シンセサイザーをさわったことがあるひとなら、オシレーターの波形選択で「サイン波」を選んだことがあるかもしれない。あのなめらかな「ぽー」という音の波は、f(x)=sin(x)のグラフの形をしている。サイン波は、音楽においては「純音」とも呼ばれる、もっともシンプルな波形である。
で、この節の最初の段落では、この「サイン波を足し合わせるだけで、全ての波形が表現できる」ということを言ったわけだ。「あんなシンプルな波を足し合わせるだけで、この世のあらゆる波形が作れるの?」と思うかもしれないが、作れるのだ。これはべつにわたしの主張ではなくて、数学的に証明された事実である。フーリエさんは、とても、すごい。
具体的な例を見てみるのがいちばんわかりやすいと思うので、矩形波(くけいは)を例にとってみる。矩形波というのはその名の通り四角い波形で、「ぽー」ではなく「ビー」みたいな、ちょっとファミコンっぽいやつだ。じつはこの矩形波、サイン波を足し合わせることで作ることができる。
やりかたはこうだ。まず基本となるサイン波を用意する。これに対して、3倍の周波数のサイン波を振幅1/3にして足す。さらに5倍の周波数のサイン波を振幅1/5にして足す。7倍の周波数を振幅1/7で足す。つまり奇数倍の周波数のサイン波を、その逆数の振幅で足していくわけだ。すると、足す成分を増やせば増やすほど、波形はどんどん矩形波に近づいていく。3倍音までだとまだ全然なめらかだが、9倍音くらいまで足すとだいぶ四角くなってくるし、99倍音まで足せばほぼ完全に矩形波である。無限に足せば完全な矩形波になる。
ね? 矩形波がサイン波の足し算でできていることがわかったでしょう? この考え方をフーリエ合成と呼ぶ。あらゆる波形は、サイン波の足し算で表現できるのだ。
フーリエ合成とフーリエ変換
さて、いまやったように、サイン波を足し合わせて複雑な波形を作る操作のことを「フーリエ合成」という。で、その逆方向の操作、つまり、ある波形を「どの周波数のサイン波がどれくらい含まれているか」に分解する操作のことを「フーリエ変換(フーリエ解析)」という。
フーリエ合成が「サイン波を足して波形を作る」なら、フーリエ変換は「波形からサイン波を取り出す」だ。方向が逆なだけで、やっていることの本質は同じである。
フーリエ変換をすると、ある有限の範囲の波形について、「この周波数の成分がどれくらい含まれていて、この周波数の成分がどれくらい含まれていて……」ということがわかる。これはめちゃくちゃ強力な分析手法で、音響に限らずありとあらゆる信号処理の基盤になっている技術だ。
で、このフーリエ変換の結果を可視化したもの、つまり横軸に周波数、縦軸にその周波数成分のレベルをとったグラフを表示してくれる装置が「スペクトラムアナライザー」(通称スペアナ)である。DAWを使っているひとなら見たことがあるだろう。あのギザギザしたグラフのやつだ。スペアナが表示しているものの正体は、フーリエ変換の結果なのだ。
基音と倍音
さて、ここからがようやく本題というか、音楽をやるひとにとって実用的な話になる。
わかりやすくするために、前回のスペアナの結果をひとつ持ってこよう:

スペアナにある音を入力すると、いくつかのピーク(山)が表示される。このうち、もっとも低い周波数に位置するピークが「基音」だ。基音とは、その音の「聴感上の高さ」を表す周波数であり、倍音列の中で最も低い周波数成分のことである。たとえばベースの3弦開放のAの音をスペアナにかけると、55Hzのところにまずピークが立つ。この55Hzが基音だ。
そして、基音以外にもピークが立っているのが見えるはずで、これがいわゆる「倍音成分」である。たとえば基音に対して2倍の周波数、つまり110Hzのところにピークが出ていれば、それが「2倍音」だ。3倍の165Hzなら「3倍音」。この周波数がたくさん出ていれば、それは「2倍音を豊富に含む」とか「3倍音が強い」と言うわけだ。楽器やオーディオの世界でよく聞く「倍音が豊かで〜」というのは、つまりこのことを言っている。
さきほどのフーリエ合成の考え方からいうと、基音の周波数のサイン波と、各倍音の周波数のサイン波を、それぞれ適切な振幅で足し合わせると、元の音が再構成できる、ということでもある。これはさっきの矩形波の例と全く同じ理屈だ。矩形波が奇数倍音のサイン波の足し算で作れたように、あらゆる楽器の音も、基音と倍音のサイン波の足し算として理解できる。
「音色」の正体
さて、ここで大事なことを言う。「音色」とは何か。音色とは、おおまかに言えば、基音に対して何倍音がどれだけ含まれているかによって大きく決定されるものだ。
同じA(55Hz)の音を鳴らしても、ベースとピアノとサックスでは全く違う音がする。聴感上の音の高さは同じAなのに、「音色」が違う。この違いの正体が、倍音構成の違いなのだ。ベースのAとピアノのAでは、2倍音、3倍音、4倍音……の含まれ方がそれぞれ異なっていて、それが「ベースの音」「ピアノの音」という音色の違いとして聴こえている。偶数倍音が多く含まれる音は暖かく丸い印象になり、奇数倍音が多く含まれる音は鋭くはっきりした印象になる、ということが広く知られている。
前回の記事でアルダーローズのベースとアッシュメイプルのベースの倍音成分を比較したが、あの記事でやっていたことの背景にあるのがまさにこの考え方である。「音色が違う」ことを定量的に語るためには、「基音に対して各倍音がどのような比率で含まれているか」を調べればよい。スペアナの出番というわけだ。
時間軸で変化する音色
ところで、ここまでの話は「ある瞬間の波形」についての話だった。しかし、実際の楽器の音というのは、もっと動的なものだ。
実際の楽器の場合、「何倍音がどれくらい含まれるか」は時間軸で変化する。たとえばベースの弦をはじいた瞬間(アタック)には高次の倍音成分がバリっと出て、そこからサステイン(音が伸びている部分)に移行するにつれて高次の倍音成分が減衰していく。つまり、アタックの瞬間とサステインの間でも音色は変化している。言い換えれば、周波数成分は時間とともに変化しているわけだ。
だからこそ、楽器の音というのは「静的なスペクトラム」だけでは完全には記述できなくて、「時間軸に沿ってスペクトラムがどう変化するか」まで見ないと本当の意味で「音色を理解した」とは言えない。前回の記事の最後で「アタック部分だけスペアナにかけてみる、サステイン部分だけスペアナにかけてみる、などもできると面白いかもしれない」と書いたのはまさにこのことで、音色の「時間的な変化」を追いかけることは、次なる研究課題としてかなり面白いと思っている(やるとは言っていない)。
まとめ
というわけで、フーリエ変換から始まって音色の話までたどり着いた。まとめると、あらゆる波形はサイン波の足し算で表現でき(フーリエ合成)、逆に波形をサイン波に分解することもでき(フーリエ変換)、その結果を可視化するのがスペクトラムアナライザーで、音色とは基音に対する倍音の含まれ方で決まる、ということだ。
こういう原理を知っておくと、楽器やオーディオの世界にはびこるオカルトに対して「それ、スペアナで見たらどうなってるの?」という態度がとれるようになる。べつにオカルトを全否定したいわけではなくて、定量的に語れることは定量的に語ったほうが、議論の土台がしっかりするでしょう、というだけの話である。「このベースは倍音が豊かで〜」と言うのと、「このベースは基音に対して2倍音がひっこみがち、3倍音がでがちで〜」と言うのでは、後者のほうが圧倒的に情報量が多いし追試や検証や反証が可能でしょう? 追試や検証や反証はできたほうがよいんですよ。基本的にはエンジニアの気持ちとしては。
あと、まあ「オカルトは解き明かされるべきだよね」の立場からすると、「倍音が豊かなスピーカー」とかはたいぶへんなことを言っている。ということが見えてきませんか? つまり、入力された信号に対して、倍音が足されている? 音楽、フレーズが含む基音はひとつではない。縦にはハーモニーがあり、これは「同時に複数の基音が鳴っている」ということだし、横にはメロディーがあり、これは「時間軸でみたら複数の基音が鳴っている」ということになる。ここに対して、「倍音が豊か」とはつまりなにを言っているんだ? 「このスピーカーは倍音が豊か」と言っている人間はそれを理解した上で言っているのか? という「意地悪な見方」ができてきてしまうわけですね。あと、「倍音が豊かならそれでいいの?」「そんな単純な話なの?」という話も出てきますな。しかし意地悪であろうとなんだろうと、再現性の前にそれは関係ない。もういい大人なので、たとえば目の前のひとがそう言うことを言っていてもいちいち論破して回らないけれど、きちんとした理解に基づいて音色について話したいし検討したい、とは思っている。
ここで「歪み、あるいは増幅時のクリッピングと倍音」の関係について考えていくと結構おもしろいんだけど、それはトピックが散漫になってしまうので今回の記事からはスコープ外とする。
ミュージシャン、MIXエンジニアはどうすべきか
で、肝心のこういったことを知る、学ぶことが、演奏やミックスにとってどんな効果があるか、というとですね、これはまあちょっと言いにくいけど、明確に「ない」んですね。この読んだ時間返せよって感じかもしれないけど、まじで「効果はない」です。いや、厳密に言うと、「いい音がでたとき」になぜそういう音が出せたのかを分析できれば、もしかすると、再現性高くその音が出せるかもしれない。けど、そんなことよりも、ただ、世界のひとつの現象をより高い解像度で見る目を身につけることができるようになる。そういう目で音楽を聴いたり音楽をやったりするのは、かなり贅沢な音楽の楽しみ方のひとつだと思うんだよね。エンジニアとしてのわたしは、この「世界を見る目の分解能をあげる」ってことがそもそも「ただの楽しいこと」だとおもってやってるところがある。基礎研究みたいなもん。で、ミュージシャンとしてのぼくって、音楽って世界の神秘だと思っていて、その世界の神秘の「ひみつ」の一端を解き明かしていくなんて、とてもロマンチックで素敵な遊びだと思っている。つまり、なんだ、役立つからやってんじゃなくて、おもしれーからやってんだな。いいんです。大人の自由研究なので、それで。