음성 합성

음성 합성: 악기  연주를  재정의하는  기술

연주하는 음악적 프레이즈에 따라 사전 프로그래밍된 가사를 "노래"할 수 있는 이전에 없었던 키보드를 상상해 보십시오. 기존의 키보드, 신디사이저 및 전문 스튜디오 프로덕션 장비와 달리 Casiotone CT-S1000V는 음성 합성이라는 획기적인 신기술을 기반으로 구축된 완전히 새로운 악기 연주 개념을 선보입니다.

1980년대부터 PCM 기반 기술은 키보드 연주자들에게 무수히 많은 실제 악기 소리를 표준으로 제공했습니다. 그러나 인간의 노래하는 목소리를 설득력 있게 재현하는 것은 지금까지 가능하지 않았습니다. 음성은 일정한 피치에서도 음색의 엄청난 변화를 보일 뿐만 아니라 가사는 완전히 다른 복잡성을 더합니다. 주어진 단어에도 멜로디와 프레이즈에서 차이가 있을뿐만 아니라 그 앞뒤에 오는 단어들이 파형의 변화를 불러옵니다.

그리고 사람의 음성을 키보드 포맷 내에서 재현하기 위한 제품이 존재했지만, 특수한 작동과 연주 기법, 분당 보정 및 사전 프로그래밍된 가사를 노래하는 등 음악가들을 흡수하는 데 한계가 있었습니다.

Casio의 음성 합성 기술은 사람이 노래하는 음성을 키보드 연주자의 손가락 끝으로 현실감 있게 재현하여 이러한 문제를 극복했습니다. 또한 CT-S1000V의 출시로 특별한 기술이 없어도 누구나 자신의 느낌에 따라 언제든지 노래하는 음성을 만들 수 있습니다.

실시간으로 "노래"하는 기기

Casio는 Nagoya Institute of Technology의 연구원들과 함께 음성 라인을 악기 연주자들이 쉽게 접근할 수 있도록 하는 획기적인 신기술인 음성 합성을 개발했습니다. 이전 머신 러닝 연구에 기반한 조음 모델은 내장된 사전 설정 가사와 함께 보컬리스트로 알려진 다양한 가상 음성 패치의 음색을 변조하는데 사용되며, 사용자가 프로그램한 가사가 Lyric Creator 앱으로 입력되어 키보드를 통해 유창한 노래 라인을 생성합니다. 인간의 성대를 모방하기 위해 설계된 PCM 음원이 생성하는 음색을 입력된 가사에 따라 구문을 생성하는 필터를 결합하여 만든 음성은 실제 노브를 통해 실시간으로 조정할 수 있으며, 연령 및 성별과 같은 특성도 고려할 수 있습니다.

이 기술은 키보드 또는 보코더를 통해 미리 녹음된 음성을 실행하는 이전 접근 방식에서 근본적으로 탈피해 부르는 음성을 실시간으로 신디사이저 음색과 결합합니다. 특별한 기술이 필요 없는 음성 합성으로 사전 프로그램된 가사와 원하는 멜로디나 하모니를 함께 엮을 수 있으므로, 악기와 서정적 표현의 결합에서 새로운 가능성을 열 수 있습니다.

음표 모드 및 프레이즈 모드가 가사의 진행을 제어합니다

가사가 전진하는 방식은 다음 두 가지 모드 중 하나로 결정됩니다. 음표 모드는 각 음을 연주할 때마다 음이 멜로디와 가사를 구성하면서 진행됩니다. 프레이즈 모드에서는 연주가 진행되면 고정된 계기에서 가사를 자동으로 진행합니다.

음표 모드는 사용자가 연주하는 음표에 따라 가사의 각 음절을 실행하고 키를 놓으면 마지막 자음을 적용하여 자연스럽고 유창한 음성 라인을 생성합니다. 또한 잘못된 음을 연주했을 때 위치를 잃을 위험을 방지하는 몇 가지 기능이 있습니다. CASIO의 SP-3 및 SP-20 페달(별도 판매) 또는 기타 상용 풋스위치를 사용하여 가사를 통해 앞뒤로 이동하거나 가사 위치를 재설정할 수 있습니다. 또한 베이스 레지스터 키를 사용하여 다음 발음할 음절을 선택하고, 코드가 재생될 때 음절의 진행 방식을 제어할 수 있습니다.

음표 모드(및 기존 음성 합성 소프트웨어)에서는 주로 보컬 멜로디가 미리 정해져 있어야 하지만, 프레이즈 모드에서는 CT-S1000V를 통해 연주할 때 가사를 자동으로 앞으로 이동하여 즉흥적으로 연주할 수 있는 옵션을 제공합니다. 가사와 리드미컬한 부분 및 BPM을 미리 설정해 놓은 다음, 자유롭게 연주하면서 가사가 제 시간에 들리는 것을 확인할 수 있습니다.

이 모드를 사용하면 단순한 멜로디 개념에서 벗어나 고급 키보드 기법을 기반으로 복합적인 음성 라인을 만들 수 있습니다. 동시에 키보드 기술이 좀 더 기본적이라면 실수로 잘못된 키를 누르는 경우에도 구문이 '깨지지' 않을 것이라고 확신할 수 있습니다. 프레이즈 모드의 또 다른 장점은 자연스럽게 발음이 흐르는 통로를 만드는 발음 교점입니다. 또한 구성 플랫폼이 탁월하여 새로운 음성 라인을 만들고 키보드의 직관적인 인터페이스를 통해 배치할 수 있습니다.

실제로 CT-S1000V를 단순히 새로운 사운드 및 음색 생성기가 있는 키보드를 넘어 새로운 음악 표현의 가능성을 열어주는 악기로 변모시키는 것은 프레이즈 모드입니다.

음색에 대한 실시간 제어

CT-S1000V에는 각자의 특색이 있는 "합창단", "보사노바"에서 "어린이" 및 "보코더"까지 22개의 음성 사전 설정 또는 "보컬리스트"가 있습니다. 각각 화이트 노이즈와 같은 여러 가지 파형과 요소로 구성된 이 보컬리스트는 모노포닉 멜로디 라인이나 보다 복합적인 하모니를 연주하더라도 모음과 자음을 모두 선명하게 표현하도록 정밀하게 조정되어 있습니다.

한편, CT-S1000V 콘솔 패널의 실제 제어 노브는 선택한 보컬리스트의 연령 및 성별 프로필을 결정하는 음색의 특성뿐만 아니라 비브라토 및 포르타멘토와 같은 변수를 실시간으로 제어할 수 있습니다. 어택 및 릴리스를 조정하고 발음 속도를 조절하면 단어와 음절 간의 자연스러운 전환을 만들 수 있으며, 최종적인 음성이 귀에 와닿는 타이밍을 미묘하게 제어할 수 있습니다. 뿐만 아니라 16비트/44.1kHz WAV 파일을 업로드하고 자신만의 사용자 보컬리스트를 만들 수 있으며, 다양한 변수를 결합해 완전히 새로운 원 사운드를 발굴할 수 있습니다. 이로써 CT-S1000V는 독특하고 즐거움을 만드는 기기가 됩니다. 이 모든 것이 Casio의 보컬 합성 기술로 지원됩니다.

보컬리스트 예시

합창단

중간 규모의 여성 합창단의 소리. 자음은 명확하게 발음되며 코드를 연주할 때도 들을 수 있습니다.

트리오

남성 트리오. 자음은 명확하게 발음되며 코드를 연주할 때도 들을 수 있습니다.

보코더 1

80년대 디스코 히트곡으로 대중화된 보코더와 같은 사운드로, 한 옥타브 아래 피치 사운드로 계층화되어 있습니다.

BOSSA NOVA

호흡 소리가 섞인 보사노바 스타일의 여성 음성.

오페라

독특한 비브라토가 포함된 오페라 사운드.

죽음의 목소리

'Growl'로 알려진 데스 메탈 장르에서 사용되는 격렬한 음성. 사운드에 기본 음색이 포함되어 있지 않습니다.

유령

첫 번째 단계에서 벤드업이 추가되어 놀라운 유령의 소리를 만듭니다.

동물

닭, 소, 사자, 고양이, 염소를 흉내내며 가사를 말할 수 있는 독특한 소리.

기능을 결합하여 복합적인 음질을 생성합니다

보컬 합성과 CT-S1000V의 창의적 가능성은 내장된 여러 기능을 결합함으로써 더욱 확장됩니다. 예를 들어, 키를 누르고 있으면 아르페지에이터가 아르페지오로된 코드 및 기타 프레이즈를 생성하며, Syllable Randomizer와 함께 사용하면 가사의 음절을 무작위로 발음하여 내세적인 감성의 음성 조합을 만들 수 있습니다.

내장 DSP 효과와 기기의 음색을 결합하면 더욱 역동적인 조합이 가능합니다. 리트리거 기능이 활성화된 상태에서 키를 누르면 빠르고 완벽한 타이밍의 연속 동작으로 키를 누르는 효과가 재현됩니다. 리트리거를 홀드 기능과 함께 사용하면 키를 놓은 후에도 키가 리트리거되도록 함으로써 실제로 연주 불가능한 텍스처와 배열을 쉽게 만들 수 있습니다.

원본 업로드
구절 사용
Lyric Creator 앱

스마트 장치 모델 및 OS에 대한 호환성 정보는 App Store/Google Play를 참조하십시오.

가사 입력

좋아하는 노래 가사와 원 창작물을 모두 Casio의 Lyric Creator 앱을 통해 iOS 또는 Android 장치를 사용하여 영어와 일본어로 입력할 수 있습니다. 이 텍스트는 자동으로 음절 단위로 나누어집니다. 단, 수동으로 단위를 지정하고 여러 음절을 그룹으로 묶어야 할 수도 있습니다. 그 후 결과 데이터를 CT-S1000V로 내보내면 재생할 준비가 된 것입니다.

미터를 설정합니다

프레이즈 모드에서 가사 재생 미터는 개별 음절 단위에 음표 값(8분의 1음표, 4분의 1 음표 등)을 할당하고 나머지를 삽입하면 결정됩니다. 개별 가사 음색에는 CT-S1000V를 통해 조정할 수 있는 템포 데이터가 포함됩니다. 템포는 DAW 또는 다른 외부 MIDI 장치에서 MIDI 클럭과 동기화되어 아무리 모험적인 시도를 하더라도 항상 음성 프레이즈가 제 시간에 유지될 수 있습니다.

프레이즈 및 발음으로 세분화

매우 세부적인 접근 방식을 선호하는 사용자는 더 깊이 들어가 개별 음절을 구성하는 음소를 편집할 수 있습니다. 또한 더 선명한 발음을 만드는 것 외에도 이 과정은 지역 억양과 비슷하게 표현하거나 영어 및 일본어 이외의 언어로 단어의 발음을 모방하는 데 사용할 수 있습니다. (이용 가능한 음소 라이브러리는 표준 영어 및 일본어로 발생하는 소리로만 구성됩니다.)

음소 편집과 IPA 등가물 에 사용되는 음소 기호표+-

긴 시퀀스를 위해 가사 묶기

Lyric Creator는 입력할 수 있는 가사 길이를 제한하지만(8분의 1음표 최대 100개 음소), 일단 CT-S1000V에 업로드하면 개별 가사를 훨씬 더 긴 시퀀스로 연결할 수 있습니다. 이 기능을 사용하면 입력 단계에서 개별 섹션을 미세 조정하고 CT-S1000V 내에서 결합하여 완전한 노래를 만들 수 있습니다.

자신만의 보컬리스트 만들기

Lyric Creator 앱은 또한 모바일 기기에 저장된 WAV 오디오 샘플(16비트/44.1kHz, 모노/스테레오, 최대 길이 10초)을 변환해 다시 CT-S1000V로 로드할 수 있는 원본 보컬리스트 패치에 넣는 데 사용됩니다. 편집 인터페이스를 사용하면 나이, 성별, 음역, 비브라토 등의 특성을 설정할 수 있습니다.

CT-S1000V의 22가지 보컬리스트 사전 설정은 서로 다른 파형을 백색 노이즈와 같은 요소와 혼합하여 가장 명확한 발음을 구현하도록 설계되었습니다. 따라서 사용자 보컬리스트 파형은 동일한 수준의 조음을 달성하지 못할 수 있습니다. 하지만 일부 실험을 통해 CT-SV1000V의 동물 사전 설정과 유사한 추상적 사운드를 비롯한 새로운 사운드를 만들 수 있습니다.

아래 링크에서 무료 사용자 보컬리스트 호환 파형 샘플(SawC4 + WhiteNoise.wav)을 다운로드하여 실험해보세요.
https://support.casio.com/en/support/download.php?cid=008&pid=20

스마트 장치에 CT-S1000V 연결

스마트폰 또는 태블릿에 Lyric Creator 앱을 설치하면 USB 케이블을 통해 장치를 CT-S1000V에 연결하여 가사, 시퀀스, 음성 샘플 등을 전송할 수 있습니다. 연결된 동안 앱을 사용하여 CT-S1000V의 내부 드라이브에서 사용 가능한 공간이 얼마나 있는지 확인하거나, 파일을 삭제하고, 파일 이름을 편집할 수도 있습니다. 프로그램 파일은 CT-S1000V 사용자 간에 공유할 수 있는 전용 형식을 사용하여 내보냅니다. DAW에서 음악 XML 가사 데이터와 음표 값을 가져올 수도 있습니다.

음성 합성: PCM 이후 사운드 생성 최초의 놀라운 진보

CASIO의 사운드 소스  개발 역사

1970년대에 시작된 오디오 산업 연구 개발에서 탄생한 펄스 코드 변조(PCM) 기술은 물리적 기기 및 인간의 음성과 같은 아날로그 소스의 음파를 디지털로 재생함으로써 일상적인 음악 환경에 큰 영향을 미쳤습니다.

모음-
자음
합성

Casiotone 201

PD
음원

CZ-101

IPD
음원

VZ-1

1980년 Casio Computer Co., Ltd.는 모든 사람에게 음악을 연주하는 즐거움을 선사하기 위해 디지털 기술을 활용하는 것을 목표로 Casiotone 201 및 획기적인 모음-자음 합성 접근 방식으로 악기 시장에 최초로 진출했습니다. 그 후 1980년대 중반, 레코딩된 음악이 아날로그 레코드에서 디지털 CD로 전환하고, 라이벌 기기 제작자들이 음악 제작을 위한 디지털 합성 플랫폼 개발에 경쟁하면서 Casio는 고유의 위상 왜곡(PD) 음원을 기반으로 CZ-101 신디사이저를 출시했습니다. Casio의 디지털 합성에 대한 기여는 1988년 VZ-1과 통합 위상 왜곡(IPD) 기술의 출시함으로써 또 하나의 도약을 이루었습니다.

1980년대는 전자 기기가 대중음악에 엄청난 영향을 끼친 시기입니다. 또한 PCM 기술을 갖춘 새로운 키보드와 신디사이저는 아티스트들이 완전히 새로운 사운드로 녹음하고 새로운 연주 스타일을 탐색할 수 있도록 하는 중심 역할을 했습니다. 한편, 메모리 개선으로 디지털 기기의 가격이 지속적으로 떨어지고 있으며, 이로써 이러한 기기들이 점차 일반 소비자들도 사용할 수 있게 되었습니다.

1985년 Casio는 PCM 기반으로 한 음색 생성 방식을 사용해 드럼과 심벌의 소리를 디지털화하는 MT-500 전자 키보드를 출시했으며 1986년 출시 후 수백만 대를 판매한 전설적인 SK-1 샘플링 키보드의 성공을 위한 길을 예비했습니다. 이어 1988년에는 PCM 기반으로 음색을 생성하는 전자 키보드인 CT-640이 그 뒤를 이었습니다.

같은 시기에 PCM 기술은 점점 더 진짜와 같은 소리를 내는 전자 피아노를 만들어 가고 있었습니다. 1988년에 Casio 최초의 해머액션 키보드가 장착된 전자 피아노 CDP-3000이 새로 출시된 한편, 1991년에는 AP-7과 고급 피아노(AP) 음원을 출시하고 여전히 인기 있는 CELVIANO 시리즈를 소개하면서 전자 피아노 시장에 대한 발판을 넓혔습니다. 그 후 몇 년 동안, 메모리 개선은 그 어느 때보다 저렴한 가격으로 성능과 음질의 개선을 지속적으로 이끌어 왔습니다.

하지만 PCM 음원이 한계가 없는 것은 아니었습니다.

저장된 소리를 충실하게 재현하는 데 이상적인 한편, PCM 음원은 재생의 다양성으로 인해 음색과 조음이 미세하게 변형되는 것을 재현하는 데 어려움을 겪었습니다. Casio는 이 문제를 해결하고 PCM 아키텍처를 발전시키기 위한 개발 드라이브를 출시했습니다. 그리고 1993년에는 CTK-1000이 출시되었습니다. 이 전자 피아노는 PCM 기반 음색 생성과 터치 응답 및 DSP 기능을 결합한 통합 크로스 사운드 아키텍처(iXA) 음원이 탑재되어 있습니다.

현재 출시된 제품 중 다수는 여전히 PCM 기반 음원을 고유한 Casio 기술과 결합해 음표 지연 및 재생 다양성과 같은 요인으로 인한 복잡한 음색의 변화를 재현합니다. Casio의 전자 피아노 라인업에는 Privia와 CELVIANO 시리즈가 포함됩니다. 이 시리즈에는 어쿠스틱 지능형 공명기(AiR) 음원이 탑재되어 있고 CELVIANO Grand Hybrid는 AiR Grand 음원이 탑재되어 있습니다. 한편, Casiotone 시리즈에는 PCM 기반의 Acoustic Intelligent Multi-Expression(AiX) 음원이 탑재되어 있습니다.

PCM기반
음원

SK-1

CT-640

CDP-3000

CELVIANO AP-7

CTK-1000

Privia PX-S1100

CELVIANO Grand Hybrid GP-510BP

Casiotone CT-S1

이러한 발전으로 PCM 기반 음색 생성이 광범위한 악기 사운드를 충실하게 재현할 수 있게 되었지만, 가장 기본적이고 역사적으로 중요한 악기인 인간의 목소리를 재현하는 데는 계속해서 어려움을 겪고 있습니다. 부르는 음성 라인을 재현하려면 다양한 문제와 싸워야 합니다. 여러 가지의 보컬 기법은 음색에 매우 복잡한 변형을 생성할 뿐만 아니라 서정적 부분에도 처리해야 할 너무 많은 변수가 있습니다. 어휘의 다양성에서부터 음절 사이의 전환, 그리고 다른 멜로디나 프레이즈가 주어진 단어에 필요한 파형을 완전히 변형하는 방식에 이르기까지 변수가 압도적으로 많습니다. PCM 기반 접근 방식은 보코더 및 기타 기술과 함께 최근 몇 년 동안 발전했지만 상당한 결점으로 인해 광범위하게 채택하는 데 지속적인 장애가 됩니다.

이제 마침내 2022년에는 사운드 생성 기술인 음성 합성에 대한 완전히 새로운 접근 방식과 마찬가지로 새로운 종류의 악기인 Casiotone CT-S1000V과 함께 Casio의 오랜 개발 노력이 결실을 맺게 되었습니다. 음성 합성과 혁신적인 프레이즈 모드를 결합한 이 새로운 장치는 부르는 음성 라인을 사용자들의 손 끝으로 가져가는 복잡한 과정을 수행하며, 누구나 사용할 수 있을 만큼 간단하고 직관적인 인터페이스를 제공합니다. 그리고 지난 30년이 우리의 생활 방식에 많은 변화를 가져왔듯이, 우리는 이 최신 혁신이 음악 연주 및 작곡 분야에서 유사한 영향을 미칠 수 있기를 바랍니다.

음성 합성

Casiotone CT-S1000V