VOCAL SYNTHESIS

音楽の概念を変える技術、
Vocal synthesis。

何も考えずに鍵盤を弾けば、あらかじめ入力した歌詞がその演奏フレーズに乗り、歌が生まれる……。
これまでのシンセサイザーやキーボードとは違う。そして、単なる制作機器としての音源でもない。まったく新しい「考え方」の楽器、Casiotone CT-S1000Vの核となるのが、独自技術Vocal Synthesisです。

1980年代以降、PCM技術の普及により様々な楽器の音を鍵盤楽器で演奏することがスタンダードになりました。ただ、人間の歌声は同じ音程でも音色は様々に異なり、さらに歌詞という非常に複雑な情報も併せ持ちます。さらに、単語の前後関係やメロディによって同じ単語でも音声波形が変化するため、鍵盤演奏で再現するのが極めて難しいものでした。

鍵盤で歌声を演奏するというコンセプトの製品は今までにもありましたが、特殊な演奏スキルや細かな調整が求められました。あらかじめ決められた歌詞に演奏が縛られたり、きちんと発音を聴かせるためには細かな調整が必要だったりと、制約も大きく誰もが気軽に演奏できるとは言い難かったのです。

Vocal Synthesisは、このような課題をクリアした、鍵盤を弾いた瞬間に歌を生み出すことができる技術です。Vocal Synthesisによって、演奏のスキルを問わずに、誰もがその時の気分に合わせて自由に鍵盤を弾くだけで歌が生まれる楽器、CT-S1000Vが誕生しました。

リアルタイムで楽器が“歌う”
Vocal Synthesis

Vocal Synthesisは名古屋工業大学を中心とした研究をベースにカシオが独自開発した、楽器で歌声を作り出す、今までにない技術です。あらかじめ機械学習によって作り上げた音響モデルと、専用の歌声音色(ボーカリスト)により、歌詞付きの歌声を生み出します。プリセットされた歌詞や、専用アプリ「Lyric Creator」を使ってユーザーが入力した歌詞が、鍵盤演奏によって歌声として生成されます。また、歌声の性別や年齢などのキャラクターを、ノブの調整で瞬時に変化させることができます。人間の声帯にあたる励振源(キャリア)をPCM音源によるボーカリストが担い、人間の声道にあたるフィルタを歌詞フレーズのデータから自動で生成、この2つを掛け合わせることで歌声が出力されます。

この、歌声を演奏できる仕組みは、従来のあらかじめ録音した歌声を鍵盤演奏で発音させる音源技術や、リアルタイムに入力した人間の声でシンセ音を変調させたりするボコーダーとは全く異なります。歌声で演奏するための特殊なスキルが必要ないのはもちろん、歌詞フレーズに演奏が縛られることもありません。つまり、Vocal Synthesisは、従来の鍵盤演奏の考え方にとらわれることなく、新しい歌声演奏の可能性を切り開く技術なのです。

「フレーズモード」「ノートモード」歌詞の進み方をコントロール

歌詞の進み方は、鍵盤を押している間、自動的に歌詞が進む「フレーズモード」と、鍵盤を押すたびに歌詞が進む「ノートモード」の2種類から選べます。

「ノートモード」では鍵盤を押すたびに音節ごとに歌詞を進めることができます。各音節の最後の子音は鍵盤を離したときに発音させることにより、音節が自然で滑らかにつながります。また、ミスタッチにより歌詞がズレてしまう問題を解決するために、歌詞フレーズの進行をコントロールできる多彩な機能を備えています。例えば、別売品(SP-3、SP-20)のペダルや市販のフットスイッチを使って歌詞の送りや戻し、音節位置のリセットができるほか、低音域の鍵盤を使って発音させる音節を指定したり、同時に発音する和音の数によって音節の進行を制御したりすることも可能です。

「フレーズモード」では、鍵盤を押している間、自動的に歌詞を進めることができます。つまり、入力した歌詞を即興演奏でCT-S1000Vに歌わせることができるのです。「ノートモード」やボーカル合成ソフト音源では、歌詞に対してメロディをある程度事前に固めてから演奏することが必要です。しかし、「フレーズモード」では歌詞と譜割り、BPMを事前に設定しておけば、自由に鍵盤を弾くだけで歌を乗せることができるのです。

これにより、メロディという概念にとらわれず、鍵盤楽器ならではの高度な演奏技法に歌を乗せることも可能になりました。同時に、鍵盤演奏のスキルがさほど高くなくても、歌が破綻することはありません。「フレーズモード」では各音節のつながりがよりスムーズになり、滑舌のよい歌声になる点もメリットです。曲のアイデアを練るときも、鍵盤を触りながら曲フレーズの構想やイメージを膨らませることができるので、楽器ならではの直感性を活かした音楽制作も可能です。

CT-S1000VがVocal Synthesisという新音源や新音色を搭載したキーボードという位置づけにとどまることなく、「今までにない音楽表現の可能性を切り開く楽器」としての価値を持つのは、この「フレーズモード」の革新性によるものなのです。

ボーカルの性別や年齢など
歌声の特徴もリアルタイムで調整可能

歌詞を歌わせる歌声音色(ボーカリスト)は、「CHOIR GROUP」「VOCODER」「BOSSA NOVA」「CHILD」など22種類のキャラクターを搭載しています。これらの音色は複数の波形やホワイトノイズなどを組み合わせ、単音のメロディ演奏はもちろん、和音でも子音・母音の発音がクリアに聞こえるよう、綿密に調整されています。

ボーカリストの性別や年齢、ビブラートやポルタメントなど歌声の特徴や声質は、CT-S1000Vの操作パネル上のコントロールノブを操作してリアルタイムに変化させることができます。また、発音の立ち上がり/立ち下がり(アタック/リリース)や歌詞フレーズの歌いまわし速度を調整することで、音節や単語のつながりをより自然にし、聴感上の発音タイミングもコントロールすることができます。さらに、任意のwavファイル(16bit/44.1kHz)をユーザーボーカリストとして読み込ませる機能も搭載。様々なパラメータを組み合わせることで想像を超えたサウンドが生まれる、そんな実験的な面白さを体験できることも、Vocal Synthesis技術によって誕生した楽器、CT-S1000Vの魅力なのです。

歌声音色(ボーカリスト)サンプル

CHOIR GROUP

中編成女性コーラス風のサウンド。コード演奏でも子音の発音が聞き取りやすく使いやすい。

CHOIR TRIO

男性3名コーラス風のサウンド。コード演奏でも子音の発音が聞き取りやすく使いやすい。

VOCODER 1

80年代ディスコサウンドで使われたボコーダー風サウンド。1オクターブ下の音程がレイヤーされている。

BOSSA NOVA

ブレス成分が多めに入ったBossa Nova風の女性ボーカルサウンド。

OPERA

ビブラートが特長的なオペラ調のサウンド。

DEATH VOICE

Death Metal系のジャンルで使われるGrowlと言われる激しいボーカルサウンド。基音の音程はなし。

GHOST

立ち上がりにベンドアップを入れて陽気なお化けをイメージしたサウンド。

ANIMALS

鶏、牛、ライオン、猫、ヤギの鳴き声で歌詞を発音できるユニークなサウンド。

機能を組み合わせて
より多彩な歌声を表現

Vocal SynthesisとCT-S1000Vに搭載された多彩な機能の組み合わせにより、さらに独創的で新しい音楽表現の可能性を追求することも可能になりました。例えば、鍵盤を押さえるだけで、アルペジオ(分散和音)や様々なフレーズを自動的に再生する「アルペジエータ―」や、歌詞フレーズの音節をランダムな順番で発音させる「音節進行ランダム」などを使えば、「歌であることは分かるけれど、何を言っているのかわからない」、そんな不思議な効果を生み出すこともできます。

内蔵されているDSPエフェクトや楽器音色と組み合わせることで、よりアグレッシブな音作りをすることも可能です。また、「リトリガー」機能を使うと、鍵盤を押している間、指定した周期で鍵盤を繰り返し押し直すような効果が得られ、鍵盤を離しても「リトリガー」が継続する「ホールド」で音を鳴らし続けることもできるので、歌詞を素材にしたDJのループ機能のようなプレイや、人間の演奏では不可能なボーカルフレーズを生み出すことも可能です。

Vocal Synthesisの歌詞作成
などを行うための専用アプリ
「Lyric Creator」

スマートフォン/タブレットの対応OS/機種については、APP Store/Google Playでご確認ください。

歌詞を入力する

既存またはオリジナルの歌詞をiOS/Android専用アプリ「Lyric Creator」に入力して、CT-S1000Vに転送して歌声を演奏できます。歌詞は日本語・英語のいずれかのテキスト入力で作成。入力した歌詞は自動で音節単位に分割できます。もちろん手動で分割位置の調整や複数音節を結合することも可能です。

譜割りを設定する

それぞれの歌詞(音節)の音の長さを指定したり、休符を入力したりすることで、「フレーズモード」で発音される譜割りを設定できます。各歌詞音色はテンポ情報を持っており、CT-S1000V本体でテンポを変更することが可能です。またDAWやMIDI機器からのMIDI Clockを受けてテンポを同期させると、自由に鍵盤を弾いても歌詞フレーズは常にバックトラックとシンクロするため音楽が破綻することがなく、新たな演奏表現の可能性が広がります。

発音を微調整する

各音節の発音はその構成要素(音素)単位での編集が可能です。微調整することで、より明瞭な発声はもちろん、地域によるアクセントの違いの表現や、日本語・英語以外の言語の発音に近づけることもできます。(※選択できる音素は日本語・英語に存在するものに限ります)

音素編集で使用する発音記号とIPA記号(国際音声記号)などの対応表+-

歌詞をつなげて長いフレーズを作る

歌詞(音節)の音の長さが全て8分音符の場合、1つの歌詞音色は100音節まで入力できます。さらに、楽器に転送した複数の歌詞音色を連結させて、長いフレーズを作成することが可能です。この機能を使うと例えば音節の細かいコントロールは一つ一つの歌詞(音節)単位で行いながら、1曲分の歌詞を歌わせることもできます。

ボーカリスト(歌声音色)を作る

「Lyric Creator」を使って、スマートフォン/タブレットに保存されているオーディオファイル(wavフォーマット、16bit/44.1kHz、mono/stereo、10秒以内)からオリジナルのボーカリストを作成して、CT-S1000Vに読み込ませることができます。性別や年齢のほか、デフォルトのオクターブ音域、ビブラートのかかり方などの設定が可能です。

CT-S100Vにプリセットされた22種類のボーカリストは、明瞭な発音を得るために複数波形を組み合わせたりノイズ成分を混ぜたりして調整しています。そのため、読み込ませたユーザーボーカリストの波形がプリセットボーカリストと同じような歌詞の発音が難しい場合もあります。ボーカリストの「ANIMALS」のような、動物の鳴き声で歌わせるといった実験的なものを含め、さまざまな波形を読み込ませて新しい音色の可能性を探ってみてください。

ユーザーボーカリストに読み込ませられるサンプル波形(SawC4+WhiteNoise.wav)は以下のリンクからダウンロードできます。
https://support.casio.jp/download.php?cid=008&pid=318

スマートフォン/タブレットとCT-S1000Vの接続

アプリをダウンロードしたスマートフォン/タブレットをUSBケーブルでCT-S1000Vと接続すれば、歌詞音色やシーケンス、ボーカリストのデータを転送できます。作成した歌詞音色データやボーカリストデータは専用フォーマットで書き出すことが可能。これにより、他のスマートデバイスで作成したデータや、自分以外のユーザーが作成したデータを活用できます。さらに、DAWソフトなどで編集したMusicXMLファイルの歌詞や音価情報を読み込むことも可能です。また、CT-S1000Vの空き容量の確認やデータの削除、データタイトルの変更などもアプリの操作で行えます。

PCM以来の新音源技術「Vocal Synthesis」

CASIO音源ヒストリー

オーディオ業界で1970年代から研究開発が始まっていたPCM(Pulse Code Modulation)技術。人の歌声や楽器演奏などのアナログ音声波形をデジタルデータに変換するこの技術は、私たちの生活にある「音楽」のすべてを大きく変えてきました。

子音・母音
音源
システム

Casiotone 201

PD
Sound Source

CZ-101

iPD
Sound Source

VZ-1

カシオ計算機が電子楽器市場に参入したのは1980年のことでした。カシオトーン201の子音・母音音源システムとともに、「デジタル技術により全ての人に楽器演奏の楽しみを広げたい」というカシオ電子楽器事業がスタートしたのです。80年代後半ごろから急速に一般家庭でもレコードプレイヤーに替わってコンパクトディスクプレイヤーが普及しはじめ、「レコード」ではなく「CD」が主流になっていく、そんな時代でした。各社のデジタルシンセ開発競争も激化する中、1984年にカシオ計算機では独自のPD音源を搭載したCZ-101を発売。さらに1988年にはその進化系であるiPD音源を搭載したVZ-1が発売されデジタルシンセ音源の進化が加速します。

電子楽器が音楽シーンを賑わせていた80年代。PCM技術を取り入れた電子キーボードやシンセサイザーの登場によって「これまでにない音源を使った楽曲」が流行し、演奏スタイルの斬新さも相まって注目されたのです。同時に、このころからデジタル機器のメモリの大容量化や一般に普及しやすい価格帯での発売が可能となっていきました。

カシオは1985年電子キーボードMT-500 でドラムやシンバル音のPCM音源化を実現。翌、1986年にはサンプリングキーボードSK-1を発表しました。SK-1は100万台以上もの大ヒットを記録。さらに、1988年にフルPCM音源の電子キーボード、CT-640を発売しました。

このころには、電子ピアノでも、よりリアルなピアノ音色を強みにする製品が続々登場しました。カシオも1988年にPCM音源とカシオ初のハンマーアクション機構を搭載したCDP-3000を発表。さらに、1991年には現在も人気のCELVIANOシリーズの1号機となる、AP(Advanced Piano)音源を搭載したAP-7を発売し、電子ピアノ市場に本格的に参入しました。その後、メモリのさらなる大容量化により、電子楽器は高性能、高品質でありながらますます手の届きやすい価格へと進化していきます。

しかし、PCM音源には弱点がありました。

メモリに格納されたとおりの音を再生することに長けている一方で、演奏表現(アーティキュレーション)による音色変化の再現は得意ではなかったのです。そこで、新たな技術を加えることで、音源を進化させる研究開発がはじまりました。1993年にはPCM音源にタッチレスポンスによる特徴的な音色変化が得られるデジタルシンセサイズ音源とDSPエフェクト機能を組み合わせたiXA音源を搭載したCTK-1000が発売され、PCM音源をベースにした音源技術の進化が進んでいきます。

現行ラインナップであるデジタルピアノPrivia、CELVIANOシリーズに搭載されているAiR音源、さらに電子ピアノのフラグシップであるCELVIANO Grand Hybridシリーズに搭載されているAiR Grand音源、またCasiotoneシリーズをはじめとするキーボードに搭載されているAiX音源は全てPCM音源をベースに、独自技術により時間経過や演奏表現による複雑な音色変化を再現している技術です。

PCM-Based
Sound Source

SK-1

CT-640

CDP-3000

CELVIANO AP-7

CTK-1000

Privia PX-S1100

CELVIANO Grand Hybrid GP-510BP

Casiotone CT-S1

このように様々な楽器の音が次々とPCM音源ベースで表現できるようになっていきましたが、音楽の歴史上もっとも重要な「楽器」であり、特にポピュラー音楽では必要不可欠な要素となっている人間の歌声、ボーカルだけは、PCM音源ベースでは再現するのが難しいものでした。歌い方による音色変化が非常に複雑であるうえに、歌詞というさらに複雑な要素を備えているのがボーカルです。歌詞となる言葉の選び方や、ある単語から次の単語への変化など、同じ単語でもメロディやフレーズにより全く異なる波形になってしまうからです。PCM音源ベースでの再現も徐々に進んでおり、ボコーダーなど別の技術での再現も可能にはなっていますが、制約も大きく万人にとって扱いやすい技術ではありませんでした。

そこでカシオは全く新しい音源技術の開発に着手、2022年に誕生したのがVocal Synthesisです。Vocal Synthesisと革新的なフレーズモードを組み合わせ、複雑な歌詞情報の表現を可能にしながら誰もが感覚的に扱える、全く新しい楽器としてCasiotone CT-S1000Vが誕生しました。この30年で、私たちのライフスタイルが大きく変わったように、「演奏する」「曲を作る」というスタイルにも革命的な変化をもたらす新音源技術となることを願っています。

Vocal Synthesis

Casiotone CT-S1000V

Sound Source Technologies

カシオ音源技術スペシャルサイトはこの画像をクリック