VOCAL SYNTHESIS

Vocal Synthesis: Công nghệ định nghĩa lại việc chơi nhạc cụ

Hãy tưởng tượng một cây đàn keyboard không giống bất kỳ đàn keyboard nào khác trước đây. Đàn có thể “hát” theo lời bài hát được lập trình trước theo những đoạn nhạc bạn chơi. Không giống như đàn keyboard và nhạc cụ tổng hợp thông thường và trái ngược với thiết bị sản xuất studio chuyên dụng, Casiotone CT-S1000V đại diện cho khái niệm thiết bị biểu diễn hoàn toàn mới được xây dựng dựa trên công nghệ mới mang tính đột phá: Vocal Synthesis.

Từ những năm 1980, công nghệ dựa trên PCM đã cho phép người chơi đàn keyboard tiếp cận với vô số âm thanh nhạc cụ tiêu chuẩn đích thực. Nhưng sao chép giọng hát của con người một cách thuyết phục vẫn luôn là một việc nằm ngoài tầm với. Ngay cả khi không thay đổi cao độ thì giọng hát vốn đã có những khác biệt to lớn về âm sắc. Không những vậy, lời bài hát còn tạo thêm một lớp phức tạp khác. Ngay cả khi có sẵn từ thì những khác biệt về giai điệu và đoạn nhạc, cũng như những từ phía trước và sau những từ có sẵn đó đều sẽ làm cho dạng sóng âm thay đổi.

Và mặc dù đã có những sản phẩm được tạo ra để tái tạo âm thanh giọng nói của con người theo định dạng đàn keyboard, thì chúng cũng đòi hỏi kỹ thuật biểu diễn và vận hành chuyên dụng hoặc đòi hỏi hiệu chỉnh theo phút và lời bài hát được lập trình sẵn. Đó đều là những yếu tố mà nhạc sĩ vốn hạn chế sử dụng.

Công nghệ Vocal Synthesis của CASIO khắc phục những vấn đề này bằng cách đưa các bản sao như thật của giọng hát con người lên ngón tay của những người chơi đàn keyboard. CT-S1000V được cho ra mắt đồng nghĩa với việc bất kỳ ai cũng có thể tạo ra giọng hát bất cứ khi nào họ muốn mà không cần phải có kỹ thuật đặc biệt.

Nhạc cụ “hát” theo thời gian thực

Vocal Synthesis là một công nghệ mới mang tính đột phá, giúp người chơi nhạc cụ tiếp cận với các chuỗi giai điệu một cách dễ dàng. Công nghệ này được Casio và các nhà nghiên cứu tại viện công nghệ Nagoya hợp tác phát triển. Các mẫu phát âm dựa trên nghiên cứu học máy trước đây được sử dụng để điều chỉnh âm giọng hát từ một loạt các mẫu giọng hát ảo ngắn được gọi là Vocalist, kết hợp với lời bài hát cài sẵn và lời bài hát do người dùng lập trình được nhập vào ứng dụng Lyric Creator để tạo ra các chuỗi giai điệu trôi chảy thông qua đàn. Giọng hát được tạo ra bằng cách kết hợp các âm giọng hát do nguồn âm thanh PCM tạo ra nhằm mô phỏng dây thanh quản của con người. Đồng thời, các bộ lọc tạo đoạn nhạc phù hợp với lời bài hát nhập vào cũng sẽ được tinh chỉnh theo thời gian thực thông qua các nút bấm cơ học để điều chỉnh các đặc điểm khác như như độ tuổi và giới tính.

Công nghệ này là sự cải tiến đầu tiên so với những phương pháp trước, kích hoạt âm thanh giọng hát ghi âm sẵn qua bàn phím, hay còn gọi là vocoder, để kết hợp giọng hát theo thời gian thực với các âm của nhạc cụ tổng hợp. Và chẳng những không đòi hỏi kỹ thuật đặc biệt mà công nghệ Vocal Synthesis còn cho phép bạn ghép lời bài hát đã lập trình trước đó với bất kỳ giai điệu hoặc bản hòa âm nào bạn muốn, từ đó mở ra nhiều khả năng mới trong việc hòa quyện giai điệu và lời bài hát khi biểu đạt.

Chế độ nốt nhạc (Note Mode) và chế độ đoạn nhạc (Phrase Mode) giúp bạn kiểm soát chuỗi lời bài hát

Cách tiếp nối lời bài hát được xác định bằng một trong hai chế độ sau: Chế độ nốt nhạc (Note Mode) là chế độ mà mỗi nốt nhạc bạn chơi sẽ tạo thành giai điệu và lời bài hát tiếp nối dựa theo từng nốt đó. Trong khi chế độ đoạn nhạc (Phrase Mode) là chế độ tự động lướt qua lời bài hát dựa theo nhịp cố định bạn chơi.

Chế độ nốt nhạc (Note Mode) tạo ra các chuỗi giai điệu mượt mà, tự nhiên bằng cách phát từng âm tiết của lời bài hát tùy theo nốt nhạc bạn chơi và đưa các phụ âm đầu vào khi bạn thả phím. Ngoài ra còn có một số tính năng giúp bạn tránh rủi ro lạc nhịp khi nhấn sai nốt. Bạn cũng có thể sử dụng bàn đạp SP-3 và SP-20 của Casio (được bán riêng) hoặc bàn đạp chân thương mại có sẵn khác để chuyển tiếp, quay lại hoặc đặt lại vị trí lời bài hát. Bạn cũng có thể chọn các âm tiết để phát tiếp theo bằng cách sử dụng các phím trên thanh ghi âm trầm và kiểm soát cách âm tiết tiếp nối khi phát hợp âm.

Trong khi chế độ nốt nhạc (Note Mode) và phần mềm tổng hợp giọng hát hiện có đòi hỏi bạn phải cố định giai điệu giọng hát trước thì ở chế độ đoạn nhạc (Phrase Mode), CT-S1000V cho phép bạn tùy chọn ứng tác bằng cách tự động chuyển tiếp lời bài hát lên trước khi bạn chơi. Chỉ cần cài đặt lời bài hát, phân khúc nhịp điệu và BPM trước, sau đó phát nhạc thoải mái và nghe thiết bị phát lời bài hát cùng lúc.

Chế độ này cho phép bạn vượt ra khỏi những khái niệm về giai điệu thông thường và tạo ra những chuỗi giai điệu phức tạp dựa trên các kỹ thuật đàn keyboard nâng cao. Đồng thời, nếu kỹ năng đàn keyboard của bạn chỉ ở mức cơ bản, bạn vẫn có thể tự tin rằng đoạn nhạc sẽ không bị “ngắt quãng” nếu như bạn lỡ bấm sai nốt. Một lợi ích khác của chế độ đoạn nhạc (Phrase Mode) là các kết nối ngữ âm tự nhiên tạo ra các đoạn âm thanh đang chảy. Tính năng này cũng cung cấp nền tảng soạn nhạc tuyệt vời, cho phép bạn sáng tạo các chuỗi giai điệu mới và sắp xếp chúng lại với nhau thông qua giao diện đàn keyboard trực quan.

Trên thực tế, chính chế độ đoạn nhạc (Phrase Mode) đã đưa CT-S1000V vượt xa khỏi khái niệm đàn keyboard mới với các âm sắc và bộ tạo âm thanh mới, biến nó trở thành một nhạc cụ mở ra nhiều lựa chọn hơn cho bạn thể hiện cá tính âm nhạc.

Điều khiển âm sắc giọng theo thời gian thực

CT-S1000V có 22 giá trị giọng hát đặt sẵn, hay còn gọi là “Vocalist” (Giọng hát chính), mỗi giọng đều có đặc điểm riêng, từ “Choir Group” và “Bossa Nova” đến “Child” hay thậm chí là “Vocoder”. Mỗi âm bao gồm nhiều dạng sóng và các thành phần như tiếng ồn trắng (white noise). Những Vocalist này được điều chỉnh chính xác để phát nguyên âm và phụ âm rõ ràng, dù là khi biểu diễn các chuỗi giai điệu đơn âm hay các bản hòa âm phức tạp hơn.

Trong khi đó, các núm điều khiển cơ học trên bảng điều khiển của CT-S1000V cung cấp khả năng kiểm soát theo thời gian thực đối với các tham số như âm vibrato và âm portamento, cũng như các đặc điểm về âm khác xác định độ tuổi và giới tính của Vocalist bạn đã chọn. Và bằng cách điều chỉnh thao tác nhấn và nhả phím, cũng như tốc độ phát âm, bạn cũng có thể điều chỉnh tốc độ chuyển tiếp tự nhiên hơn giữa các từ và âm tiết, cũng như dễ dàng kiểm soát thời gian mà giọng hát thu được truyền vào tai bạn. Ngoài ra, bạn có thể tải lên tập tin WAV 16 bit/44,1 kHz và tạo ra Vocalist cho người dùng, cũng như kết hợp với các tham số khác nhau để khám phá những âm thanh nguyên gốc. Đây là phạm vi thử nghiệm giúp CT-S1000V trở nên độc đáo và thú vị, tất cả đều được hỗ trợ bởi công nghệ Vocal Synthesis của Casio.

Các ví dụ về Vocalist

CHOIR GROUP

Âm thanh của dàn nhạc giọng nữ trung. Những phụ âm được phát rõ ràng và có thể nghe được ngay cả khi bạn phát hợp âm.

CHOIR TRIO

Dàn nhạc nam 3 người. Những phụ âm được phát rõ ràng và có thể nghe được ngay cả khi bạn phát hợp âm.

VOCODER 1

Âm thanh giống như vocoder trở nên phổ biến qua những bài hit disco những năm 80, với âm cao độ thấp hơn quãng tám bên dưới.

BOSSA NOVA

Âm thanh giọng nữ theo phong cách bossa nova nhiều hơi.

OPERA

Âm thanh ấn tượng với giọng rung đặc trưng.

DEATH VOICE

Một âm thanh giọng hát dữ dội nổi tiếng với tên gọi “Growl”, được sử dụng trong thể loại Death Metal. Âm thanh không có âm điệu cơ bản nào.

GHOST

Thêm phần luyến láy ở đoạn nhạc ban đầu để tạo ra âm thanh cuốn hút, ma mị.

ANIMALS

Một âm thanh độc đáo, bắt chước tiếng động vật như gà, bò, sư tử, mèo và dê được chèn vào lời bài hát.

Kết hợp các chức năng để tạo cấu trúc giọng hát phức tạp

Các khả năng sáng tạo của công nghệ Vocal Synthesis và CT-S1000V vẫn được mở rộng thêm bằng cách kết hợp nhiều tính năng tích hợp. Ví dụ, bộ tạo hợp âm rải tạo ra hợp âm rải và các đoạn nhạc khác bằng cách nhấn phím xuống, nhưng cũng có thể được sử dụng kết hợp với Bộ tạo âm tiết ngẫu nhiên để có thể phát âm tiết từ lời bài hát theo cách ngẫu nhiên và tạo ra các cụm âm tiết của thế giới khác.

Các hiệu ứng DSP cài sẵn kết hợp các âm nhạc cụ mở ra nhiều sự kết hợp sống động hơn nữa. Nhấn giữ phím và bật chức năng kích hoạt lại để tạo lại hiệu ứng nhấn phím liên tiếp nhanh chóng, đúng thời gian hoàn hảo. Bạn có thể sử dụng chức năng tạo lại cùng với chức năng giữ phím để tạo lại phím ngay cả khi đã nhả phím ra, từ đó tạo điều kiện cho kết cấu và cách sắp xếp vốn không thể chơi theo cách thông thường.

Tải bản gốc lên
Đoạn nhạc sử dụng
Ứng dụng Lyric Creator

Hãy kiểm tra App Store/Google Play để biết thông tin về tính tương thích liên quan đến mẫu thiết bị thông minh và hệ điều hành của bạn.

Nhập lời bài hát của bạn

Bạn có thể nhập và tạo lời bài hát bạn yêu thích giống với bài gốc bằng tiếng Anh và tiếng Nhật bằng thiết bị iOS hoặc Android của bạn thông qua ứng dụng Lyric Creator của riêng Casio. Văn bản này được tự động chia thành các đơn vị âm tiết (mặc dù bạn cũng có thể tự gán các phân khúc và nhóm nhiều âm tiết lại với nhau), và sau khi xuất dữ liệu kết quả cho CT-S1000V, bạn đã có thể phát nhạc.

Đặt máy đo

Trong chế độ đoạn nhạc (Phrase Mode), nhịp phát lời bài hát được xác định bằng cách gán giá trị nốt nhạc (nốt thứ 8, nốt đen, v.v.) cho các thiết bị âm tiết riêng lẻ và chèn các âm nghỉ. Âm lời bài hát riêng bao gồm dữ liệu nhịp có thể điều chỉnh từ chính CT-S1000V. Bạn cũng có thể được đồng bộ hóa nhịp với đồng hồ MIDI từ DAW hoặc thiết bị MIDI ngoại vi khác để đảm bảo rằng đoạn bạn của bạn luôn vang lên đúng lúc bất kể bạn thích mạo hiểm sáng tạo như thế nào.

Lấy âm chi tiết bằng cách tạo đoạn nhạc và chọn từ

Người dùng hứng thú với việc tiếp cận âm chi tiết có thể tìm hiểu sâu hơn và chỉnh sửa âm vị bao gồm các âm tiết riêng lẻ. Ngoài việc chọn ra các giọng hát rõ ràng hơn, bạn có thể sử dụng quy trình này để mô phỏng giọng vùng miền hoặc bắt chước cách phát âm một số từ của ngôn ngữ khác ngoài tiếng Anh và tiếng Nhật. (Lưu ý rằng bộ sưu tập âm vị hiện tại chỉ bao gồm các âm thanh tồn tại ở tiếng Anh và tiếng Nhật chuẩn.)

Bảng biểu tượng ngữ âm được sử dụng trong Bộ chỉnh sửa âm vị và IPA tương đương+-

Chuỗi lời bài hát ghép nối với nhau tạo chuỗi dài hơn

Trong khi ứng dụng Lyric Creator đặt giới hạn độ dài lời nhạc có thể nhập (tối đa 100 âm nốt thứ 8), thì sau khi tải CT-S1000V lên, bạn có thể ghép từng lời bài hát riêng lẻ vào một chuỗi dài hơn rất nhiều. Chức năng này cho phép bạn tinh chỉnh từng phần riêng lẻ ở giai đoạn chèn nhạc vào trước khi kết hợp chúng trong CT-S1000V để tạo ra bài hát hoàn chỉnh.

Tạo ra các Vocalist của riêng bạn

Bạn cũng có thể sử dụng ứng dụng Lyric Creator để chuyển đổi mẫu âm thanh WAV (16bit/44,1kHz, mono/stereo, độ dài tối đa 10 giây) được lưu trong thiết bị di động của bạn vào phần Vocalist ban đầu để có thể tải vào CT-S1000V. Giao diện chỉnh sửa cho phép bạn cài đặt các đặc điểm như độ tuổi, giới tính, quãng giọng và độ rung.

22 giá trị Vocalist đặt trước của CT-S1000V được thiết kế để tạo hiệu ứng rõ ràng tối đa bằng cách kết hợp các dạng sóng khác nhau với các thành phần như tiếng ồn trắng, và do đó dạng sóng âm của người dùng có thể sẽ không hoàn toàn giống nhau. Nhưng bạn cũng có thể thử nghiệm tạo ra âm thanh mới, bao gồm những âm rút gọn tương tự như phần giá trị âm động vật đặt sẵn của CT-SV1000V.

Bắt đầu thử nghiệm bằng cách tải xuống các mẫu dạng sóng tương thích với Vocalist miễn phí cho người dùng (SawC4+WhiteNoise.wav) từ liên kết dưới đây:
https://support.casio.com/en/support/download.php?cid=008&pid=20

Kết nối CT-S1000V với thiết bị thông minh của bạn

Sau khi cài đặt ứng dụng Lyric Creator trên điện thoại thông minh hoặc máy tính bảng, bạn có thể bắt đầu chuyển lời bài hát, chuỗi, mẫu giọng hát, v.v. bằng cách kết nối thiết bị của bạn với CT-S1000V thông qua cáp USB. Trong khi kết nối, bạn cũng có thể sử dụng ứng dụng để xem dung lượng có sẵn trên ổ đĩa trong của CT-S1000V, xóa và chỉnh sửa tên tập tin. Các tập tin chương trình được xuất bằng định dạng độc quyền cho phép chia sẻ giữa người dùng CT-S1000V. Bạn cũng có thể nhập dữ liệu lời bài hát XML và giá trị nốt nhạc từ DAW.

Vocal Synthesis: Bước tiến lớn đầu tiên trong thế hệ âm thanh từ khi có PCM

Lịch sử phát triển Nguồn âm thanh Casio

Ra đời từ quá trình nghiên cứu và phát triển ngành âm thanh bắt đầu vào những năm 1970, công nghệ Pulse Code Modulation (PCM) đã tác động đáng kể đến bối cảnh âm nhạc hàng ngày của chúng ta thông qua việc tái tạo sóng âm thanh từ các nguồn kỹ thuật số tương tự như nhạc cụ cơ học và giọng nói của con người.

Tổng hợp
Nguyên âm-
Phụ âm

Casiotone 201

PD
Nguồn âm thanh

CZ-101

iPD
Nguồn âm thanh

VZ-1

Vào năm 1980, với mục tiêu tận dụng công nghệ kỹ thuật số để mang lại niềm vui chơi nhạc cho mọi người, Casio Computer Co., Ltd. lần đầu tiên tham gia vào thị trường nhạc cụ với Casiotone 201 và phương pháp tổng hợp Nguyên âm-Phụ âm đột phá. Sau đó, vào giữa những năm 1980, với sự chuyển đổi âm nhạc được ghi từ bản ghi analog sang đĩa CD kỹ thuật số và từ việc các đối thủ sản xuất nhạc cụ cạnh tranh để phát triển nền tảng tổng hợp kỹ thuật số để tạo nhạc, Casio đã ra mắt nhạc cụ tổng hợp CZ-101, dựa trên công nghệ Phase Distortion (PD) độc đáo của chúng tôi. Và sự đóng góp của Casio trong lĩnh vực tổng hợp kỹ thuật số đã đạt được một bước tiến nhảy vọt nữa vào năm 1988 với sự ra mắt của VZ-1 và công nghệ Integrated Phase Distortion (iPD).

Những năm 1980 là thời kỳ mà nhạc cụ điện tử gây tác động to lớn đến âm nhạc đại chúng. Và đàn keyboard và nhạc cụ tổng hợp mới với công nghệ PCM trở nên nổi bật hơn cả bằng cách cho phép các nghệ sĩ tạo bản ghi bằng cách sử dụng âm thanh hoàn toàn mới và khám phá phong cách biểu diễn mới. Trong khi đó, những cải tiến trong bộ nhớ tiếp tục làm giảm giá của các thiết bị kỹ thuật số, từ đó đưa chúng tiếp cận gần hơn với người tiêu dùng thông thường.

Năm 1985, Casio đã phát hành đàn keyboard điện tử MT-500, sử dụng tính năng tạo âm dựa trên PCM để số hóa âm thanh của trống và chũm chọe, đồng thời mở đường cho sự thành công vượt bậc của đàn keyboard lấy mẫu SK-1 huyền thoại; sản phẩm bán được một triệu chiếc sau khi ra mắt vào năm 1986. Sau đó vào năm 1988, CT-640 trở thành đàn keyboard điện tử hoàn toàn dựa trên công nghệ tạo âm của PCM.

Cũng trong khoảng thời gian đó, công nghệ PCM đã tạo ra những cây đàn piano điện tử với âm thanh ngày càng chân thực. Một sản phẩm mới khác ra mắt vào năm 1988 là đàn CDP-3000 dựa trên PCM, cây đàn piano điện tử đầu tiên của Casio với bàn phím cơ chế búa gõ. Trong khi đó, năm 1991, Casio giới thiệu dòng CELVIANO vẫn được ưa chuộng cho đến nay, và cho ra đời AP-7 cùng nguồn âm thanh Advanced Piano (AP), từ đó tạo ra bước tiến mở rộng toàn diện vào thị trường piano điện tử. Trong những năm sau đó, những cải tiến trong bộ nhớ tiếp tục thúc đẩy hiệu suất, chất lượng âm thanh cao hơn và giá cả phải chăng hơn bao giờ hết.

Nhưng các nguồn âm thanh PCM không phải là không có giới hạn.

Mặc dù những nguồn âm thanh PCM này là vô cùng lý tưởng cho việc tái tạo trung thực âm thanh đã lưu, chúng gặp khó khăn trong việc tái tạo các biến thể tinh tế về giai điệu và cách phát âm do sự dao động khi phát nhạc. Casio đã khởi động một chiến dịch phát triển nhằm giải quyết vấn đề này và cải tiến kết cấu PCM với việc cho ra mắt CTK-1000 vào năm 1993. Đây là một cây đàn piano điện tử có nguồn âm thanh Integrated Cross-Sound Architecture (iXA) kết hợp chức năng tạo âm dựa trên PCM với phản hồi cảm ứng và Chức năng DSP.

Nhiều sản phẩm hiện tại của chúng tôi vẫn sử dụng nguồn âm thanh dựa trên PCM kết hợp với các công nghệ độc đáo của Casio để tái tạo những thay đổi phức tạp trong giai điệu do các yếu tố như phát nốt chậm và độ dao động của âm thanh. Dòng sản phẩm piano điện tử của chúng tôi bao gồm cả dòng Privia và CELVIANO, với nguồn âm thanh Acoustic and Intelligent Resonator (AiR) và CELVIANO Grand Hybrid với nguồn âm thanh AiR Grand. Trong khi đó, dòng Casiotone cũng có nguồn âm thanh Acoustic Intelligent multi-Expression (AiX) dựa trên PCM.

Nguồn âm thanh dựa trên PCM
Sound Source

SK-1

CT-640

CDP-3000

CELVIANO AP-7

CTK-1000

Privia PX-S1100

CELVIANO Grand Hybrid GP-510BP

Casiotone CT-S1

Nhưng trong khi những tiến bộ như vậy đã cho phép tạo âm dựa trên PCM để cung cấp các bản tái tạo trung thực của một loạt các âm thanh nhạc cụ, thì nhạc cụ vẫn tiếp tục gặp khó khăn với yếu tố cơ bản và quan trọng nhất trong lịch sử, đó chính là giọng nói của con người. Việc tái tạo các giọng hát có sẵn phải đối mặt với hàng loạt thử thách. Không chỉ các kỹ thuật thanh nhạc khác nhau tạo ra các biến thể phức tạp về âm sắc mà nội dung trữ tình cũng cho ra một lượng lớn các biến số cần xử lý. Từ sự đa dạng của từ vựng đến sự chuyển đổi giữa các âm tiết và cách một giai điệu hoặc cách ghép ngữ khác nhau hoàn toàn có thể biến đổi dạng sóng cần thiết cho một từ nhất định. Và trong khi các phương pháp tiếp cận dựa trên PCM đã đạt được nhiều tiến bộ trong những năm gần đây, cùng với vocoder và các công nghệ khác, nhưng những thiếu sót đáng kể vẫn tiếp tục cản trở việc áp dụng rộng rãi.

Giờ đây, vào năm 2022, Casio cuối cùng cũng đã hiện thực hóa những nỗ lực phát triển lâu dài với cách tiếp cận hoàn toàn mới bằng cách sử dụng công nghệ tạo âm thanh Vocal Synthesis và cho ra đời một loại nhạc cụ hoàn toàn mới: Casiotone CT-S1000V. Khi kết hợp chức năng Vocal Synthesis với Chế độ đoạn nhạc (Phrase Mode) mang tính bước ngoặt, thiết bị mới này có thể thực hiện nhiệm vụ phức tạp đáng kinh ngạc là đưa các giọng hát có sẵn lên ngón tay của bạn, nhưng với một giao diện đủ đơn giản và trực quan để mọi người có thể sử dụng. Và cũng như 30 năm qua đã mang lại nhiều thay đổi trong đời sống, chúng tôi hy vọng rằng công nghệ tiên tiến nhất này cũng có thể gây tác động tương tự lên lĩnh vực biểu diễn và sáng tác nhạc.

Vocal Synthesis

Casiotone CT-S1000V