Bản tin được dịch và tóm tắt bởi nền tảng tạo trợ lý AI – KamiMind.
Nguồn: Nicholas Megaw, “Investors use AI to find out what executives really think“, The Australian Financial Review, 13/11/2023.
Trong cuộc họp báo cáo doanh thu, ông deSouza, CEO của một công ty, thể hiện dấu hiệu lo lắng và căng thẳng mỗi khi được hỏi về Grail, một vấn đề nhạy cảm. Điều này được xác định thông qua công cụ phân tích âm thanh dựa trên trí tuệ nhân tạo mang tên Speech Craft Analytics, phát hiện các biến đổi trong tốc độ nói, cường độ và âm lượng của ông, cùng với sự tăng của từ điển và thậm chí là tiếng ngốc. Ông deSouza rời bỏ chức vụ ngay sau sự kiện này. Khả năng của bản ghi âm để phát hiện ra cảm xúc thực sự của các nhà quản lý đã thu hút sự quan tâm của các nhà đầu tư lớn. Mặc dù nhiều quỹ đã sử dụng thuật toán Xử lý Ngôn ngữ Tự nhiên (NLP) để phân tích các bản trích, họ đang khám phá khả năng sử dụng tín hiệu âm thanh để có thêm thông tin chi tiết. Sự do dự, các từ điền và thậm chí là những rung chuyển nhỏ không thể cảm nhận được có thể cung cấp thông tin quý giá. Tuy nhiên, có những thách thức, bao gồm việc so sánh các bài diễn thuyết theo thời gian để tính đến sự khác biệt cá nhân và các độ chệch tiềm ẩn trong thuật toán. Ngoài ra, phân tích giọng nói có thể gặp khó khăn khi xử lý người nói không phải bản xứ và các diễn viên được đào tạo. Do đó, các đội quan hệ đầu tư có thể bắt đầu hướng dẫn các nhà quản lý để theo dõi cách họ nói và hành vi mà không thể được ghi lại trong bản trích.
Bản tóm tắt tiếng Anh
During an earnings call, Mr. deSouza, the CEO of a company, exhibited signs of anxiety and tension whenever asked about Grail, a sensitive issue. This was identified through an AI-based audio analysis tool called Speech Craft Analytics, which detected shifts in his speech rate, pitch, and volume, along with an increase in filler words and even an audible gulp. Mr. deSouza resigned shortly after this incident. The ability of audio recordings to reveal executives’ true emotions has drawn the interest of major investors. While many funds already use Natural Language Processing (NLP) algorithms to analyze transcripts, they are now exploring the use of audio signals to gain additional insights. Hesitation, filler words, and even imperceptible microtremors can provide valuable information. Robeco, an asset manager, has successfully incorporated audio analysis into its strategies, leading to improved returns. However, there are challenges, including the need to compare speeches over time to account for individual differences and potential biases in algorithms. In addition, voice analysis may struggle with non-native speakers and trained actors. As a result, investor relations teams may start coaching executives to monitor their voice tone and behavior that may not be captured in transcripts.
Bản dịch Anh – Việt
Ông deSouza cho biết vấn đề này chỉ ảnh hưởng đến “một phần rất nhỏ của công ty”. Tuy nhiên, mỗi khi ông được hỏi về Grail, có những thay đổi về tốc độ nói, giọng điệu và âm lượng, theo Speech Craft Analytics, một công nghệ trí tuệ nhân tạo để phân tích các bản ghi âm. Có một sự tăng lên trong việc sử dụng từ ngữ như “um” và “ah”, và thậm chí là một tiếng nuốt rõ ràng.
Sự kết hợp này “biểu hiện những dấu hiệu của sự lo lắng và căng thẳng đặc biệt khi nói về vấn đề nhạy cảm này”, theo David Pope, chuyên gia dữ liệu chính của Speech Craft Analytics.
Ông deSouza từ chức chưa đầy hai tháng sau đó.
Ý tưởng rằng các bản ghi âm có thể cung cấp gợi ý về cảm xúc thật sự của các nhà điều hành đã thu hút sự chú ý của một số nhà đầu tư lớn nhất thế giới.
Nhiều quỹ đã sử dụng các thuật toán để lục soát qua các bản ghi cuộc gọi thu nhập và các bài thuyết trình của công ty để tìm ra tín hiệu từ sự lựa chọn từ ngữ của các nhà điều hành – một lĩnh vực được biết đến là “Xử lý Ngôn ngữ Tự nhiên” (NLP). Bây giờ, họ đang cố gắng tìm hiểu thêm thông điệp trong cách mà những từ ngữ đó được phát âm.
“Ý tưởng là âm thanh thu được nhiều hơn chỉ là những gì có trong văn bản”, Mike Chen, trưởng nhóm nghiên cứu alpha thay thế tại Robeco, quản lý tài sản, nói. “Dù bạn có một máy phân cực ngữ nghĩa tinh vi, nó chỉ thu thập ngữ nghĩa.”
Sự do dự và các từ dẫn đến những lời nói thường bị bỏ qua trong các bản ghi, và AI cũng có thể nhận ra một số “rung động nhỏ” không thể nghe thấy bằng tai người.
Robeco, quản lý hơn 80 tỷ USD trong các quỹ được điều khiển bằng thuật toán, là một trong những quỹ lớn nhất, đã bắt đầu thêm tín hiệu âm thanh thu được thông qua AI vào các chiến lược của mình vào đầu năm nay. Ông Chen nói rằng điều này đã tăng lợi nhuận và ông kỳ vọng số lượng nhà đầu tư theo sau sẽ càng ngày càng nhiều.
Việc sử dụng âm thanh đại diện cho một cấp độ mới trong trò chơi bắt chuột giữa các nhà quản lý quỹ và các nhà điều hành.
“Chúng tôi đã tìm thấy giá trị to lớn từ các bản ghi”, Yin Luo, trưởng nhóm nghiên cứu lượng tử tại Wolfe Research, nói. “Vấn đề đã tạo ra cho chúng tôi và nhiều người khác là tình hình tâm trạng tổng thể đang trở nên ngày càng tích cực… [bởi vì] các nhà quản lý công ty biết rằng thông điệp của họ đang được phân tích.”
Nhiều bài báo nghiên cứu khác nhau đã phát hiện ra rằng các bài thuyết trình đã trở nên tích cực hơn kể từ khi NLP xuất hiện, khi các công ty điều chỉnh ngôn ngữ của mình để đánh lừa các thuật toán.
Một bài báo được đồng tác giả bởi ông Luo vào đầu năm nay đã phát hiện ra rằng kết hợp NLP truyền thống với phân tích âm thanh là một cách hiệu quả để phân biệt giữa các công ty khi báo cáo của họ trở nên ngày càng “tiêu chuẩn hóa”.
Mặc dù chi phí đã giảm, phương pháp này vẫn có thể tương đối đắt đỏ. Robeco đã mất ba năm đầu tư vào cơ sở hạ tầng công nghệ mới trước khi bắt đầu làm việc để tích hợp phân tích âm thanh.
Ông Chen đã dành nhiều năm cố gắng sử dụng âm thanh trước khi tham gia Robeco, nhưng ông phát hiện ra rằng công nghệ chưa đủ tiên tiến. Và trong khi những thông tin có sẵn đã cải thiện, vẫn còn những hạn chế.
Để tránh suy luận dựa trên các cá nhân khác nhau – một số nhà điều hành có thể tự nhiên hơn trong việc diễn đạt – phân tích đáng tin cậy nhất đến từ việc so sánh các bài diễn thuyết khác nhau của cùng một cá nhân theo thời gian. Nhưng điều đó có thể làm cho việc đánh giá hiệu suất của một người lãnh đạo mới khó khăn hơn – có thể xem là thời điểm mà sự nhìn nhận sẽ đặc biệt hữu ích.
“Một hạn chế ngay cả trong NLP là việc thay đổi CEO làm phá vỡ tâm trạng tổng thể [phân tích]”, một nhà điều hành tại một công ty cung cấp phân tích NLP nói. “Hiệu ứng động trở này phải mạnh hơn với giọng nói.”
Các nhà phát triển cũng phải tránh thêm định kiến riêng của họ vào thuật toán dựa trên âm thanh, nơi những khác biệt như giới tính, tầng lớp hoặc chủng tộc có thể rõ ràng hơn so với văn bản.
“Chúng tôi rất cẩn thận để đảm bảo những định kiến ý thức mà chúng tôi nhận thức không được thể hiện, nhưng vẫn có thể tồn tại những định kiến tiềm thức”, ông Chen nói. “Việc có một đội ngũ nghiên cứu lớn và đa dạng tại Robeco giúp ích.”
Các thuật toán có thể đưa ra kết quả sai lệch nếu họ cố gắng phân tích một người nói bằng một ngôn ngữ không phải là ngôn ngữ mẹ đẻ, và một sự diễn giải hoạt động trong một ngôn ngữ có thể không hoạt động trong ngôn ngữ khác.
Giống như các công ty đã cố gắng thích nghi với phân tích văn bản, ông Pope dự đoán các nhóm quan hệ với nhà đầu tư sẽ bắt đầu huấn luyện các nhà điều hành để theo dõi giọng nói và hành vi khác mà các bản ghi bỏ qua.
Phân tích giọng nói gặp khó khăn với các diễn viên được đào tạo có thể thuyết phục ở trong vai diễn của họ, nhưng việc sao chép điều đó có thể dễ dàng hơn nói cho các nhà điều hành.
“Rất ít người trong chúng ta giỏi trong việc điều chỉnh giọng nói”, ông nói. “Điều này dễ dàng hơn cho chúng ta để chọn từ ngữ cẩn thận. Chúng ta đã học cách làm điều này từ khi còn rất nhỏ để tránh gặp rắc rối.”