Kỹ sư Meta: Chỉ cần hai nhà máy điện hạt nhân để cung cấp năng lượng cho nhu cầu AI của nhân loại trong năm tới

Bản tin được dịch và tóm tắt bởi nền tảng tạo trợ lý AI – KamiMind.
Nguồn: Matt Marshall, “Meta engineer: Only two nuclear power plants needed to fuel AI inference next year“, VentureBeat, 13/11/2023.

Ảnh: Trí tuệ nhân tạo về hậu quả hạt nhân của Đại học Tokyo

Giám đốc kỹ thuật của Meta về AI tạo sinh, Sergey Edunov, tin rằng chỉ cần hai nhà máy điện hạt nhân mới sẽ đủ để đáp ứng nhu cầu ngày càng tăng về ứng dụng trí tuệ nhân tạo trong năm tới. Edunov đã đưa ra tuyên bố này trong một buổi thảo luận tại Diễn đàn Công nhân Kỹ thuật số tại Thung lũng Silicon. Ông giải thích rằng những nhà máy điện này sẽ có khả năng cung cấp năng lượng cho nhu cầu trí tuệ nhân tạo của nhân loại trong một năm. Edunov ước tính rằng nếu tất cả các GPU H100 do Nvidia phát hành vào năm tới được sử dụng để tạo ra các token cho các mô hình ngôn ngữ, thì chỉ cần hai nhà máy hạt nhân để cung cấp năng lượng cho chúng. Ông cũng thảo luận về những thách thức trong việc đào tạo các mô hình ngôn ngữ, nhấn mạnh sự cần thiết của một lượng dữ liệu đủ. Ông suy đoán rằng GPT4 có thể đã được đào tạo trên toàn bộ internet. Tuy nhiên, ông lưu ý rằng có thể không có đủ dữ liệu công cộng để huấn luyện các mô hình tương lai, và các nhà nghiên cứu đang nghiên cứu các kỹ thuật hiệu quả và tìm nguồn dữ liệu thay thế để giải quyết thách thức này. Nhìn chung, các diễn giả trong buổi thảo luận đồng ý rằng các mô hình ngôn ngữ đã chứng minh được giá trị đáng kể và các doanh nghiệp có thể sẽ triển khai chúng rộng rãi trong vòng hai năm tới. Họ cũng dự đoán rằng trong ba đến bốn năm tới, liệu trí tuệ nhân tạo tổng quát (AGI) có khả thi với công nghệ hiện tại hay không.

Bản tóm tắt tiếng Anh

Meta’s director of engineering for Generative AI, Sergey Edunov, believes that just two new nuclear power plants would be sufficient to meet the increasing demand for AI applications in the next year. Edunov made this statement during a panel session at the Digital Workers Forum in Silicon Valley. He explained that these power plants would be able to power humanity’s AI needs for a year. He specifically focused on the power requirements for AI inference, which is the process of deploying AI in applications to respond to questions or make recommendations. Edunov estimated that if all the H100 GPUs released by Nvidia next year were used to generate tokens for language models, it would require only two nuclear reactors to power them. He also discussed the challenges of training LLMs, emphasizing the need for a sufficient amount of data. He speculated that GPT4, for example, may have been trained on the entire internet. However, he noted that there may not be enough public data available for training future models, and researchers are exploring efficiency techniques and alternative data sources to address this challenge. Overall, the panelists agreed that LLMs have already demonstrated significant value and that enterprises will likely start deploying them widely within the next two years. They also predicted that within three to four years, it will become clear whether artificial general intelligence (AGI) is possible with current technology.

Bản dịch Anh – Việt

Giám đốc kỹ thuật của Meta về AI tạo sinh, Sergey Edunov, có một câu trả lời đáng ngạc nhiên về việc cần bao nhiêu công suất hơn để xử lý nhu cầu ngày càng tăng về ứng dụng AI trong năm tới: chỉ cần hai nhà máy điện hạt nhân mới. Edunov đang dẫn đầu các nỗ lực đào tạo của Meta cho mô hình cơ sở nguồn mở Llama 2, được coi là một trong những mô hình hàng đầu. Trong một buổi phiên thảo mà tôi đã điều phối tại Diễn đàn Công nhân Kỹ thuật số tuần trước ở Thung lũng Silicon, ông nói rằng hai nhà máy điện sẽ có vẻ đủ để cung cấp đủ năng lượng cho nhu cầu AI của nhân loại trong một năm, và điều này có vẻ chấp nhận được. Đề cập đến câu hỏi về việc thế giới có đủ khả năng để xử lý nhu cầu nguồn điện gia tăng của AI, đặc biệt là do sự gia tăng của các ứng dụng AI tạo sinh đòi hỏi nhiều năng lượng, ông nói rằng: “Chúng tôi chắc chắn có thể giải quyết vấn đề này.”

Edunov cho biết rõ rằng ông chỉ thực hiện phép tính đơn giản dựa trên sơ đồ giấy khi chuẩn bị câu trả lời của mình. Tuy nhiên, ông nói rằng nó cung cấp một ước tính khoảng của công suất cần thiết để thực hiện những gì được gọi là “inferencing” AI. Inferencing là quá trình mà AI được triển khai trong một ứng dụng để phản hồi một câu hỏi hoặc đưa ra một đề xuất.

Inferencing khác biệt với việc “training” mô hình AI, trong đó một mô hình được huấn luyện trên lượng dữ liệu lớn để sẵn sàng thực hiện inferencing.

Việc huấn luyện các mô hình ngôn ngữ lớn (LLMs) đã nhận được sự quan tâm gần đây, vì nó đòi hỏi xử lý lớn, tuy chỉ ban đầu. Khi một mô hình đã được huấn luyện, nó có thể được sử dụng lặp đi lặp lại cho các nhu cầu inferencing, đó là nơi mà ứng dụng thực sự của AI diễn ra.

Nhu cầu về công suất cho inferencing được kiểm soát

Edunov đưa ra hai câu trả lời riêng biệt để giải quyết inferencing và training. Câu trả lời đầu tiên của ông đề cập đến inferencing, nơi phần lớn quá trình xử lý sẽ diễn ra khi các tổ chức triển khai các ứng dụng AI. Ông giải thích cách ông thực hiện tính toán đơn giản cho phía inferencing: Ông nói rằng Nvidia, nhà cung cấp chủ đạo của bộ xử lý cho AI, có vẻ đã sẵn sàng ra mắt từ một triệu đến hai triệu GPU H100 của mình vào năm tới. Nếu tất cả số GPU đó được sử dụng để tạo ra “token” cho các LLM có kích thước hợp lý, ông nói rằng nó tương đương với khoảng 100.000 token cho mỗi người trên hành tinh mỗi ngày, ông thừa nhận rằng đó là một số lượng khá lớn.

Token là các đơn vị cơ bản của văn bản mà LLMs sử dụng để xử lý và tạo ra ngôn ngữ. Chúng có thể là từ, các phần của từ hoặc thậm chí là các ký tự đơn lẻ, tùy thuộc vào cách mà LLM được thiết kế. Ví dụ, từ “xin chào” có thể là một token duy nhất, hoặc nó có thể được chia thành hai token: “xin” và “chào”. Càng nhiều token mà LLM có thể xử lý, ngôn ngữ mà nó có thể tạo ra càng phức tạp và đa dạng hơn.

Vậy chúng ta cần bao nhiêu điện để tạo ra nhiều token như vậy? Như vậy, mỗi GPU H100 cần khoảng 700 watt, và với việc bạn cần một số điện để hỗ trợ trung tâm dữ liệu và làm mát, Edunov nói rằng ông làm tròn lên 1KW cho mỗi GPU. Tổng cộng lại, chỉ cần hai nhà máy điện hạt nhân để cung cấp đủ năng lượng cho tất cả các H100 đó. “Với quy mô của nhân loại, không phải là quá nhiều,” Edunov nói. “Tôi nghĩ như một xã hội, nhân loại có thể chi trả cho việc sử dụng tối đa 100.000 token mỗi ngày cho mỗi người trên hành tinh này. Vì vậy, về phía inferencing, tôi nghĩ như hiện tại chúng ta có thể ổn.”

Sau buổi hội thảo, Edunov đã làm rõ với VentureBeat rằng ý kiến của ông liên quan đến năng lượng cần thiết cho sự tính toán AI bổ sung từ sự gia tăng mới của Nvidia H100, được thiết kế đặc biệt để xử lý các ứng dụng AI và do đó là một trong những công nghệ đáng chú ý nhất. Ngoài các mẫu GPU H100, còn có các mô hình GPU Nvidia cũ hơn, cũng như CPU AMD và Intel, cũng như các gia tốc viên AI chuyên dụng để thực hiện inferencing cho AI.

Đối với việc huấn luyện generative AI, vấn đề lớn nhất là việc có đủ dữ liệu để huấn luyện chúng. Edunov cho biết rằng có nhiều suy đoán rộng rãi rằng GPT4 đã được huấn luyện trên toàn bộ internet. Ông đã đưa ra một số giả định đơn giản khác. Ông nói rằng toàn bộ internet công khai có khoảng 100 nghìn tỷ token, nếu bạn chỉ tải xuống nó, ông nói rằng bạn có thể giảm dữ liệu đó xuống còn 20 tỷ đến 10 tỷ token sau khi làm sạch và loại bỏ các dữ liệu trùng lặp. Và nếu bạn tập trung vào các token chất lượng cao, số lượng token sẽ còn ít hơn. “Số lượng kiến thức tinh luyện mà nhân loại đã tạo ra qua các thế kỷ không lớn lắm,” ông nói, đặc biệt là nếu bạn cần tiếp tục thêm dữ liệu vào các mô hình để mở rộng chúng đạt hiệu suất tốt hơn.

Ông ước tính rằng các mô hình tiếp theo với hiệu suất cao hơn sẽ yêu cầu nhiều hơn gấp 10 lần dữ liệu. Vì vậy, nếu GPT4 được huấn luyện trên khoảng 20 nghìn tỷ token, thì mô hình tiếp theo sẽ yêu cầu khoảng 200 nghìn tỷ token. Ông cho biết có thể không có đủ dữ liệu công cộng để làm điều đó. Đó là lý do tại sao các nhà nghiên cứu đang làm việc về các kỹ thuật hiệu quả để làm cho mô hình trở nên hiệu quả và thông minh hơn trên lượng dữ liệu nhỏ hơn. Các mô hình LLM cũng có thể phải sử dụng các nguồn dữ liệu thay thế, ví dụ như dữ liệu đa phương thức như video. “Đó là một lượng dữ liệu rất lớn có thể tạo điều kiện cho sự mở rộng trong tương lai,” ông nói.

Edunov đã nói trong một buổi thảo luận mang tựa đề: “Tạo ra Token: Điện năng của thời đại GenAI,” và ông đã tham gia cùng với Nik Spirin, giám đốc GenAI của Nvidia, và Kevin Tsai, Trưởng kiến trúc giải pháp, GenAI, của Google.

Spirin đồng ý với Edunov rằng có các nguồn dữ liệu khác nằm ngoài internet công cộng, bao gồm sau tường lửa và diễn đàn, mặc dù chúng không dễ dàng truy cập. Tuy nhiên, các tổ chức có quyền truy cập vào dữ liệu đó có thể sử dụng để tùy chỉnh dễ dàng các mô hình cơ bản.

Xã hội quan tâm đến việc ủng hộ các mô hình cơ bản mã nguồn mở tốt nhất, để tránh phải hỗ trợ quá nhiều nỗ lực độc lập, Spirin nói. Điều này sẽ tiết kiệm công suất tính toán, vì chúng có thể được huấn luyện trước một lần và hầu hết công sức có thể được dành cho việc tạo ra các ứng dụng thông minh phía dưới. Ông nói rằng đây là một cách để tránh gặp bất kỳ giới hạn dữ liệu nào trong thời gian tới.

Tsai của Google bổ sung rằng một số công nghệ khác cũng có thể giúp giảm áp lực đào tạo. Việc tăng cường sinh ra (RAG) có thể giúp các tổ chức điều chỉnh các mô hình cơ bản với các kho dữ liệu của họ. Mặc dù RAG có những giới hạn của nó, các công nghệ khác mà Google đã thử nghiệm, chẳng hạn như vector ngữ nghĩa thưa thớt, có thể giúp. “Cộng đồng có thể đồng hành với nhau với những mô hình hữu ích có thể tái sử dụng ở nhiều nơi. Và đó là cách tiếp tục, đúng không, cho trái đất,” ông nói.

Dự đoán: Trong ba hoặc bốn năm tới, chúng ta sẽ biết liệu AGI có khả thi với công nghệ hiện tại hay không, và các mô hình LLM sẽ mang lại giá trị “to lớn” cho doanh nghiệp.

Cuối buổi thảo luận, tôi đã hỏi các diễn giả về dự đoán của họ về hai đến ba năm tới về cách LLMs sẽ phát triển trong khả năng, và nơi chúng sẽ đạt đến giới hạn. Nói chung, họ đồng ý rằng trong khi chưa rõ ràng LLMs có thể cải thiện đến đâu, đã có được giá trị đáng kể và các doanh nghiệp có thể triển khai LLMs theo số lượng lớn trong khoảng hai năm tới.

Edunov của Meta nói rằng cải tiến cho LLMs có thể tiếp tục theo hàm số mũ hoặc bắt đầu giảm đi, ông dự đoán rằng chúng ta sẽ có câu trả lời trong ba hoặc bốn năm tới xem trí tuệ tổng quát nhân tạo (AGI) có khả thi với công nghệ hiện tại hay không. Spirin của Nvidia nói rằng dựa trên các làn sóng công nghệ trước, bao gồm công nghệ AI ban đầu, các công ty doanh nghiệp sẽ chậm chân trong việc áp dụng ban đầu. Nhưng trong vòng hai năm, ông mong đợi các công ty sẽ nhận được giá trị “to lớn” từ đó. “Ít nhất là trường hợp với làn sóng công nghệ AI trước,” ông nói.

Tsai của Google chỉ ra rằng giới hạn chuỗi cung ứng – do sự phụ thuộc của Nvidia vào bộ nhớ băng thông cao cho GPU của mình – đang làm chậm quá trình cải tiến mô hình và rằng nút thắt này phải được giải quyết. Nhưng ông nói rằng ông vẫn cảm thấy khích lệ bởi các đổi mới, như Blib-2, một dự án nghiên cứu từ Salesforce, để tìm cách xây dựng các mô hình nhỏ hơn, hiệu quả hơn. Những mô hình này có thể giúp LLMs vượt qua các ràng buộc chuỗi cung ứng bằng cách giảm yêu cầu xử lý của chúng, ông nói.