· 

検証:不可逆圧縮音源とハイレゾ音源

追記:2021.06.24

目次

  • はじめに
  • 不可逆圧縮音源 vs CDレベルのロスレス音源
  • ハイレゾ音源 vs CDレベルのロスレス音源
  • 結論

はじめに

Amazonがロスレス・ハイレゾ配信のAmazon Music HDを始め、Apple Musicもロスレス・ハイレゾに対応、まもなくSpotifyがロスレスのSpotify HiFiを開始するとの発表をしたこともあり、以下の質問はFAQと思います。

・MP3のような不可逆の圧縮音源はCDレベル(44.1k/16bit)のロスレス音源と比べて音質で劣りますか?

・ハイレゾ音源はCDレベルのロスレス音源と比べて音質で優りますか?

答は「自分で聞き比べて判断してください」でしょう。音質の違いが判るか?判らないか?を調べるには ABXテストがよく使われます。例えばロスレス音源をA、不可逆圧縮音源をBとし(逆でも良いです)、両方聞いてから未知の音源Xを聞きます。そしてXがAかBかを判断します。正解を知る前に、Aの方が音が良かったか?Bの方が良かったか?をメモしておくと良いでしょう。違いが分かっても、必ずしも不可逆圧縮音源よりロスレス、CDレベルよりハイレゾの方が音が良いと感じるとは限りません。偶然に正解する確率は50%ですから、5回連続で偶然正解する確率は約3% (0.5の5乗) になります。従って5回連続で正解すれば聞いて違いがわかる可能性がかなり高いことになります。さらに精度をあげるには、より多くの回数でABXテストを実施すれば良いでしょう。
 このブログでは、音源による違いを定量的に測定した結果を紹介します。その後に実際にみなさんがABXテストで確認する方法を紹介します。オシロスコープやスペクトラムアナライザのような計測器は、人間には気づかない程度の小さなノイズや歪みやジッターを検出します。従って測定結果に違いが出たからといって、必ずしも人間が聞いて違いがわかるとは限りません。

不可逆圧縮音源 vs CDレベルのロスレス音源

私が2013年に買ったMP3プレイヤーのフラッシュメモリー容量は256MBだったと記憶しています。そこに10枚程度のアルバムを入れるには64kbpsで圧縮する必要がありました。64kbpsのMP3は確かにCDと比べると違いが判りました。(あるいは違いが判ると思っていただけかもしれませんが。)クリアさ、あるいはディテールに欠け、こもっているような音です。

 それから約20年が経ち、AACはじめより優れた圧縮フォーマットが普及し、ビットレートも250kbps以上が普通になりました。はたしてロスレスとの違いが判るものでしょうか? 

 今回、比較に使う楽曲は前回のブログ「MusicBrainzからカバーアートを取得」の例に使ったのと同じアルバム、ヒラリー・ハーン演奏のJ.S.バッハ:ヴァイオリン協奏曲集です。その第1トラックを使います。これは私のお気に入りの録音で、CDおよび88.2k/24bitのハイレゾ音源を持っています。比較のために第1トラックだけは192k/24bitの音源も購入しました。そのため様々なフォーマットを比較することができます。


まずはAAC 128kbpsから見ていきます。CDからMacでXLDアプリを使ってリッピングしたファイルです。Windowsのfoobar2000を使いてSteinbergのUR24Cというオーディオインタフェースで再生し、UR24C内でループバックして、周波数成分を見るためにARTAというソフトのスペクトラムアナライザー機能(FFT)でリアルタイムに周波数成分(スペクトラム)を表示します。

 まず気づくのは18kHzで切れていることです。18kHz以上の音は出ていません。18kHz以上の音は25歳くらいから聞こえなくなる人が多いですから、大きな影響はないでしょう。

 最初の30秒ほどを録画してロスレスと比較したところ、若干周波数成分が異なる部分がありました。



次に AAC 256kbps(左) とロスレス FLAC 44.1k/16bit(右)比較します。この2つの周波数成分には違いはありますが、非常に小さいです。元の波形はほぼ同じと思われます。普通の人には聞き分けるのが難しいのではないでしょうか?私自身は聞き比べても違いは分かりませんでした。

 

ではお楽しみのABXテストです。

http://abx.digitalfeed.net/

というサイトでABXテストができます。

例えば、Spotify Freeの高音質(128kbps)とロスレスの違いは下記:

http://abx.digitalfeed.net/spotify.html

Spotify Premiumの最高音質(AAC 256kbps または Ogg Vorbis 320kbps)とロスレスの違いは下記:

http://abx.digitalfeed.net/spotify-hq.html

にてABXテストで比較することができます。いかがでしょう?あなたのオーディオシステムと耳で違いはわかりましたか?

 

ハイレゾ音源 vs CDレベルのロスレス音源

今から10年ほど前、ハイレゾが出始めのときに「CDは20kHzで音を切っていた。だから自然な音が失われている。192kHzのハイレゾは96kHzまで再生できるので、より正確に元の音を再現できる」というような説明をよく聞きました。ハイレゾ対応を謳って40kHzまで再生できるスピーカーというものもありましたね。しかし可聴域を超える超音波が出ていても聞こえないので、最近はハイレゾの利点として可聴域の滑らかさがより強調されるようになってきました。とはいえ、まずはハイレゾ音源の20kHz以上には何が入っているか見てみましょう。

J.S.バッハ:ヴァイオリン協奏曲集の第1トラックの192k/24bitハイレゾ音源の最初の30秒の周波数成分です。動画ですから再生してみてください。

 

概ね35kHzくらいまで演奏と連動して動くことがわかると思います。人間には聞こえないですが、楽器はこのあたりの周波数まで音を出すのですね。しかしそれ以上の周波数は固定の音が出ています。演奏とは関係のない固定の音とは、なんらかの高域ノイズでしょう。そして55kHz以上の音は録音されていません。



別のハイレゾ音源も見てみましょう。上の図の左が先程の動画と同じJ.S.バッハ:ヴァイオリン協奏曲集の再生開始から10秒後の周波数成分です。右はイーグルスのホテルカリフォルニアの192k/24bit音源の周波数成分です。こちらは90kHzあたりまで音が入っていますが、バッハ:ヴァイオリン協奏曲と同じく35kHz以上は演奏と連動しませんので固定のノイズです。55kHzあたりには常に固定で歪みのようなノイズが入っています(赤丸)。演奏と連動しないので高調波歪ではなく録音機材に起因するノイズと思われます。

 

このことから、ハイレゾ音源には可聴域を超える楽器の音が入っていますが、35kHz以上には固定のノイズしか入っていないことがわかります。従って35kHz以上を再現できる88.2kまたは96kのハイレゾ音源より、192kのハイレゾ音源に高い値段がついているとすれば、その差額はノイズに対して払っていることになりますね。

 

さて、これからが本題です。ハイレゾはなぜ音が良いのでしょう?(音が良いとすればの話ですが)。SONYのサイトDENONのサイトMoraのサイトをみると、異口同音に「ハイレゾ音源は、CDと比べてより細かくデジタル化し保存しているので、音の波形は原音に近い形を描きます。(SONYの説明)」という意味のことを書いています。

 

 本当でしょうか?この説明はDACの機能を無視して「PCMで保存されている波形=アンプに送られる波形」と言っているように聞こえます。これが映像ならDVDの480pの映像と4Kの2160pの映像の違いは明確です。しかしDACが44.1k/16bitのPCMをアナログ波形に変換したものと、192k/24bitのPCMをアナログ波形に変換したもので明確な違いはあるのでしょうか?1kHzの正弦波を44.1kでサンプリングすると1周期(1msec)で44.1個のデータが取れることになります。それだけあればDACは十分正確に正弦波を再現できそうです。192kだと192個ですが、それで大きく再現波形が変わるとは思えません。

問題はより波形が複雑で可聴域上限の周波数成分を含む場合です。20kHzの正弦波を44.1kでサンプリングすると1周期(50μsec)に2.2個のデータしか取れません。一方で192kサンプリングなら9.6個のデータが取れます。(左図)

 

これだと確かにSONYはじめ各社の説明の通り、大きな違いが出そうです。

 

 


では実際にDACで確認してみたいと思います。

 

左の写真の上は私が持っているUSB DACの中で最も古くて安価なものです。2013年に秋葉原の上海問屋で3,999円で買いました。DACチップはCirrus LogicのCS4344です。ノーブランドなので仮に「上海DAC」と呼びます。

 

左の写真の下は私が持っているUSB DACの中では最も高性能なTOPPING D50になります。DACチップはESSのES9038Q2M2です。

 

この2台のDACで44.1k/16bitと96k/24bitの波形を比較しました。使用したのはAnalog Discovery 2のオシロスコープ機能です。


上海DAC 44.1k/16bit 20kHz正弦波

上海DAC 96k/24bit 20kHz正弦波


まずは上海DACで20kHz正弦波を比較してみます。左の44.1k/16bitはひどい波形ですね。右の94k/24bitは比較的スムースな正弦波になっています。まさにSONYのハイレゾの説明通りの結果になりました。

TOPPING D50 44.1k/16bit 20kHz正弦波

TOPPING D50 96k/24bit 20kHz正弦波


次にTOPPING D50での比較です。D50の方が上海DACより出力電圧が高い(Vppで4V、RMS 1.4V)ので若干縦長の波形になっていますが、左の44.1k/16bitでも非常にスムースな正弦波を出していますね。右の96k/24bitのものと違いがわかりません。つまり「ハイレゾ音源は、CDと比べてより細かくデジタル化し保存しているので、音の波形は原音に近い形を描きます。」という説明は、D50のような高性能なDACには当てははまらず、20kHzまでの可聴域に関して言えば、音源がCD品質でもハイレゾでも同じように綺麗に再現できることになります。

TOPPING D50 1kHz sin 44.1k/16bit

上記の波形を見れば一目瞭然の結果ですが、念のため THD+N(全高調波歪み率+ノイズ)を測定しました。ここで注記が必要ですが、私は高精度なネットワークアナライザー(例えばKeysight製のとか)オーディオアナライザ(例えばAudio Precisionのとか)を持っているわけではありません。

 UR24Cで入力してARTAソフトで計測します。測定の結果、TOPPING D50のTHD+Nは0.0095%@1kHzになりました(左図)が、ご覧の通りノイズフロアは−120〜−130dBFSです。このノイズはUR24CのADCか入力ゲイン調整によるものと思われます。2万円のオーディオインタフェースのADCにしては高性能と思いますが、実際のTOPPING D50のノイズフロアは−130dBFS以下です。TOPPING社がAudio Precisionで測定した結果は0.0004%@1kHz以下です。従って下記の表は上海DACとTOPPING D50の相対的比較とご理解ください。


上海DAC 20kHz 96k/24bit

THD+N @1kHzを比較してみると5倍以上の差があります(上海DACの方が歪とノイズが5倍以上大きい)。

 

THD+N@20kHzでは、上海DACはハイレゾにすることでTHD+Nが改善されています(0.1%→0.075%)。一方でTOPPING D50はCD品質でもハイレゾでもTHD+Nはさほど変化しません。D50はCDレベルの44.1k/16bitでも十分に高品質な出力ができています。

 

上海DACで気になる点がもうひとつ。96k/24bitにすると20kHzの信号前後にジッターが原因と思われる歪みが出ていることです。(左図)


では実際にCD音質とハイレゾを聴き比べてみましょう。比較にはCDとハイレゾ音源が必要になります。音源の入手方法ですが、手持ちのCDでハイレゾでも持っていたい音源があればハイレゾ音源を買っても良いでしょう。その逆に手持ちのハイレゾのCDを買っても良いでしょう。もったいない、という場合は2Lのサイトに様々なフォーマットのサンプル音源がありますので、

 http://www.2l.no/hires/

Stereo 24BIT/192kHz のファイルと original CD 16BIT/44kHzのファイルをダウンロードして比較すると良いでしょう。

 

 次にABXテストの方法ですが、foobar2000用のABX Comparatorというコンポーネントがありますので、これを使うと良いでしょう。

 

 https://www.foobar2000.org/components/view/foo_abx

 

このコンポーネントをインストールし、プレイリストで2つのファイルを選び、右クリックで Utilities → ABX tracks... でABXテストを開始できます。(左図)もちろんハイレゾだけでなく不可逆圧縮音源とロスレス音源の比較にも使えます。


もっともハナから違いがわからない場合は、わざわざABXテストをするまでもないでしょう。自信があるならやってみてください。


結論

以上の検証から私の結論は以下の通りです。

  • AAC 250kbps以上であれば、ロスレスとの再生出力の違いはほとんどない。
  • TOPPING D50のような高性能なDACで再生すると、CDレベルの音源とハイレゾでは再生出力の違いはほとんどない。
  • 96k/24bitのハイレゾ音源と192k/24bitのハイレゾ音源では音楽情報に違いはない。

 もうひとつ。ハイレゾの24bitの利点について述べてなかったですね。レコーディングとその後の編集においては24bitのダイナミックレンジはたいへん有利でしょう。しかし再生においては16bitも24bitも大きな違いはないと思います。

 

今回のテストはすべてローカルに保存した音楽ファイルで行ったため、必ずしもストリーミング・サービスでも同様とは限りません。ストリーミング・サービスがロスレス・ハイレゾ対応の音源を持っていても、アプリの設定、回線品質、対応デバイスの仕様によってはビットレートを下げてストリーミングすることもあります。その場合の音質への影響は確認していません。

 

また同じレコーディングでもハイレゾ音源とCDでは編集が異なる場合があります。この場合、当然ですが違って聞こえます。RecoardingとRelease Trackの関係は、以下のMusic Brainzの解説が参考になります。 

https://musicbrainz.org/doc/Recordingx

 

最後にJ.S.バッハ:ヴァイオリン協奏曲集 第1トラックのフォーマットによるサイズの表を示します。これを見るとストリーミングにおけるロスレスのコスト、NASからのファイル転送におけるハイレゾのコストがわかると思います。(ここでいうコストは費用のことではなく転送負荷や時間などの代償のことです)