Khác biệt các giọng đọc nhân tạo đa vùng miền của Viettel AI

Thứ hai, 16/12/2019 - 18:02

Sẽ chẳng còn lâu nữa, khi khắp các radio, báo điện tử, loa phát thanh ở bệnh viện, bảo tàng, thông báo trạm dừng chân trên xe buýt, sách nói,… sẽ được phủ sóng với các phát thanh viên không phải người thật! Và có thể chúng ta sẽ khó mà phân biệt được các giọng này là của người thật hay người máy, khi mà công nghệ tổng hợp tiếng nói đang tạo ra các chất giọng ngày một tự nhiên và “thật” hơn rất nhiều.

Giọng nói nhân tạo là một nhánh của AI, được phát triển để giúp giải quyết nhiều vấn đề xã hội, kinh tế.

Tại Việt Nam, lĩnh vực AI nói chung và Giọng nói nhân tạo nói riêng vẫn còn là một lĩnh vực mới mẻ, chưa thực sự được đầu tư phát triển. Sự phát triển của các lĩnh vực này trong tương lai có thể giúp giải quyết các vấn đề như hỗ trợ học tập dễ dàng hơn, trở thành “phát thanh viên” chuyên nghiệp trong các công việc như đọc truyện, đọc báo, tổng đài trả lời thông tin tự động; lĩnh vực chăm sóc khách hàng từ đó cũng trở nên dễ dàng và tiết kiệm chi phí hơn rất nhiều.

Giờ đây chỉ cần truy cập vào một số tờ báo điện tử có tích hợp AI do Tập đoàn Viettel cung cấp, bạn đã có thể chọn “nghe báo” và thỏa sức tùy chỉnh giọng nam hoặc nữ, miền Bắc, miền Trung hay miền Nam tùy theo sở thích. Một số người lần đầu lắng nghe đã nhầm tưởng liệu đây có phải là giọng người thật ghi âm hay không, bởi chất giọng được tạo ra từ AI khá truyền cảm, mượt mà và nhịp điệu vừa phải.

Thú vị các giọng đọc nhân tạo đa vùng miền của Viettel AI - Ảnh 1.

Giọng đọc nhân tạo theo giới tính, vùng miền, tính cách, từng bước cá nhân hóa các chất giọng theo yêu cầu riêng biệt. Ứng dụng cụ thể vào từng lĩnh vực, giải quyết nhiều bài toán cụ thể một cách tự nhiên.

Tại Viettel, các loại hình công nghệ số, giải pháp số đang được phát triển theo hướng mang tính cá nhân hoá (personalized/customized) ngày càng cao. Một khi được phát triển hoàn thiện, những công nghệ số này sẽ không chỉ có thể giúp giải quyết được những vấn đề rất cụ thể đối với từng trường hợp người dùng (user’s case) mà còn có thể giải quyết chúng với tính chính xác và hiệu quả cực kỳ cao.

Viettel đang nghiên cứu và phát triển ra các giọng nói nhân tạo là ngôn ngữ Tiếng Việt, một trong các ngôn ngữ phức tạp nhất trên thế giới. Công nghệ được sử dụng là Text-to-Speech (TTS). Công nghệ này không chỉ giúp tạo ra những giọng nói nhân tạo thật tự nhiên, mà còn có thể thay đổi tuỳ theo vùng miền. Hãy tưởng tượng: bạn là một người con xa xứ đã lâu của đất Sài Gòn, và có nhu cầu được nghe báo nói với tông giọng miền Nam, thay vì bất cứ tông giọng nào khác - công nghệ TTS của Viettel có thể giúp bạn thực hiện việc đó một cách tiện lợi nhất.

Không riêng gì báo chí, mà lĩnh vực công vụ hành chính cũng sẽ thu được nhiều lợi ích lớn lao từ những loại hình công nghệ mang tính cá nhân hoá cao. Ví dụ, một người Hà Nội mới chuyển vào sinh sống ở Huế, do chưa quen giọng địa phương nên chắc chắn sẽ gặp nhiều khó khăn trong việc trao đổi với những nhân viên hành chính tại đây. Trong trường hợp này, các tổ chức hành chính có thể sử dụng công nghệ tiếng nói nhân tạo, với thiết lập tông giọng riêng biệt cho từng khách hàng, tuỳ theo vùng miền địa phương của họ, để tiện việc trao đổi.

Ví dụ: Báo giọng Huế

Nhờ ứng dụng công nghệ TTS, tổng đài tự động trở thành những trợ lý ảo giúp doanh nghiệp phục vụ khách hàng hiệu quả, nhanh chóng, năng suất khi có thể tự động hỗ trợ khách hàng giải đáp nhiều câu hỏi thường gặp, những sự cố không mong muốn bất kể thời gian, mọi địa điểm kể cả lễ Tết, cuối tuần.Tổng đài tự động CallBot còn giúp doanh nghiệp tiết kiệm chi phí tuyển dụng, đào tạo nhân viên…

Hệ thống hỗ trợ doanh nghiệp tạo nội dung và gọi tự động tới các nhóm thuê bao đã được phân loại để phục vụ cho các mục đích riêng biệt như quảng cáo, chăm sóc khách hàng, bán hàng tự động...với tốc độ xử lý lên cả ngàn cuộc gọi mỗi ngày, tiếp cận số lượng lớn người dùng trong thời gian ngắn.

Các lĩnh vực khác, dù là điện ảnh, kinh tế hay giáo dục, nếu được ứng dụng các loại hình công nghệ với tính cá nhân hoá cao, đều có thể mang lại những lợi ích tương tự cho cộng đồng.

Ví dụ: Nghe báo

Việc đưa các giải pháp Text to Speech phục vụ chăm sóc khách hàng rõ ràng giúp các doanh nghiệp chuyên nghiệp hơn, nhanh chóng hơn trong vấn đề tiếp cận và hỗ trợ cho chính khách hàng của mình, từ đó mở rộng được đối tượng khách, giúp người dùng có những trải nghiệm ấn tượng khi sử dụng dịch vụ và mua sắm của doanh nghiệp.

Báo Dân sinh áp dụng trí tuệ nhân tạo phục vụ bạn đọc

Chị Hương (Hà Nội) chia sẻ: “Bây giờ ngay cả khi đang lái xe, tôi cũng có thể dễ dàng nghe báo điện tử để cập nhật đa dạng các tin tức bằng các giọng đọc rất dễ nghe, thay vì chỉ nghe nhạc và radio như trước”.

Công nghệ Chuyển đổi văn bản thành âm thanh (Text to Speech) đang được xem là bước tiến quan trọng trong xu hướng nghiên cứu, phát triển ứng dụng từ Trí tuệ nhân tạo (AI), và khi đó người dùng sẽ ngày càng quan tâm hơn là tính cá nhân hóa mà các giọng nói nhân tạo này đem đến thị trường, giọng thật, tự nhiên và phục vụ các nhu cầu riêng biệt ắt hẳn sẽ chiếm lĩnh thị trường