Categories
Điểm Tin AI

Nvidia dẫn đầu, Intel bám sát và Google tụt lại phía sau trong cuộc đua AI tạo sinh

MLPerf, tiêu chuẩn đánh giá hàng đầu về khả năng của các hệ thống máy tính trong việc huấn luyện mạng neural học máy, đã chính thức bước vào thời đại AI tạo sinh.

Bản tin được dịch và tóm tắt bởi nền tảng tạo trợ lý AI – KamiMind.

Nguồn: Samuel K. Moore, “Google, Intel, Nvidia Battle in Generative AI Training MLPerf training tests put Nvidia ahead, Intel close, and Google well behind“, IEEE, 12/11/2023.
Ảnh minh họa. Nguồn: NVIDIA

MLPerf, tiêu chuẩn đánh giá hàng đầu về khả năng của các hệ thống máy tính trong việc huấn luyện mạng neural học máy, đã chính thức bước vào thời đại AI tạo sinh. Trong năm nay, MLPerf đã thêm một bài kiểm tra để huấn luyện các mô hình ngôn ngữ lớn (LLM) như GPT-3 và gần đây đã bổ sung Stable Diffusion, một công cụ tạo hình ảnh từ văn bản. Các máy tính sử dụng công nghệ của Intel và Nvidia đã tham gia vào bài kiểm tra, với siêu máy tính 10.000 GPU của Nvidia trở thành máy tính lớn nhất từng được kiểm tra. Tổng cộng, có 19 công ty và tổ chức đã nộp hơn 200 kết quả, cho thấy tăng tốc hiệu suất lên gấp 2,8 lần trong năm qua và gấp 49 lần kể từ khi MLPerf bắt đầu cách đây năm năm. Nvidia đã thống trị các bài kiểm tra, nhưng siêu máy tính AI mới của họ có tên Eos với 10.752 GPU đáng chú ý, hoàn thành bài kiểm tra huấn luyện GPT-3 trong chưa đầy bốn phút. Intel cũng đã tiến bộ bằng cách trang bị chip gia tăng Gaudi 2 của họ với khả năng điểm phẩy 8-bit, giúp giảm thời gian huấn luyện cho một cụm gia tăng 384 đơn vị điểm phẩy 103%. Những tiến bộ này trong lĩnh vực AI sáng tạo và thời gian huấn luyện nhanh hơn là rất quan trọng để cải thiện liên tục các hệ thống AI.

Bản tóm tắt tiếng Anh

MLPerf, the leading benchmark for computer systems’ ability to train machine-learning neural networks, has entered the generative AI era. This year, MLPerf added a test for training large language models (LLM) like GPT-3 and recently included Stable Diffusion, a text-to-image generator. Intel and Nvidia-powered computers participated in the benchmark, with Nvidia’s 10,000-GPU supercomputer being the largest ever tested. Overall, 19 companies and institutions submitted over 200 results, showing a 2.8-fold performance boost in the past five months and a 49-fold boost since MLPerf began five years ago. Nvidia dominated the benchmarks, but its new 10,752-GPU AI supercomputer called Eos was particularly notable, completing the GPT-3 training benchmark in under four minutes. Intel also made progress by enabling its Gaudi 2 accelerator chip with 8-bit floating-point capabilities, resulting in a 103% reduction in time-to-train for a 384-accelerator cluster. These advancements in generative AI and accelerated training times are crucial for the continued improvement of AI systems.

Bản dịch Anh – Việt

Bài kiểm tra hàng đầu để đánh giá khả năng của các hệ thống máy tính trong việc huấn luyện mạng neural học máy đã hoàn toàn bước vào thời đại AI tạo sinh. Trước đó trong năm nay, MLPerf đã thêm một bài kiểm tra để huấn luyện các mô hình ngôn ngữ lớn (LLM), đặc biệt là GPT-3. Tháng này, họ đã thêm Stable Diffusion, một bộ sinh văn bản thành hình ảnh. Các máy tính sử dụng công nghệ Intel và Nvidia đã tham gia vào bài kiểm tra mới này. Và cuộc cạnh tranh giữa hai công ty này tiếp tục trong việc huấn luyện GPT-3, và lần này họ đã có sự tham gia của Google.

Cả ba công ty đều đã sử dụng các hệ thống lớn cho nhiệm vụ này – siêu máy tính 10.000 GPU của Nvidia là máy tính lớn nhất từng được kiểm tra – và kích thước này là cần thiết trong AI sáng tạo. Ngay cả hệ thống lớn nhất của Nvidia cũng sẽ mất tám ngày làm việc để hoàn thành công việc LLM của nó.

Tổng cộng, có 19 công ty và tổ chức đã nộp hơn 200 kết quả, cho thấy tăng tốc hiệu suất lên gấp 2,8 lần trong năm qua và gấp 49 lần kể từ khi MLPerf bắt đầu năm năm trước.

Nvidia và Microsoft thử nghiệm “quái vật” 10.752 GPU

Nvidia tiếp tục làm chủ các bài kiểm tra MLPerf với các hệ thống được tạo từ GPU H100 của họ. Nhưng kết quả từ Eos, siêu máy tính AI mới của công ty với 10.752 GPU, là điểm nhấn. Bằng việc sử dụng tất cả các GPU đó cho công việc kiểm tra huấn luyện GPT-3, Eos đã hoàn thành công việc trong chưa đầy 4 phút. Phần mềm điện toán đám mây Azure của Microsoft đã thử nghiệm một hệ thống có kích thước tương tự và chỉ kém Eos vài giây. (Azure là nền tảng hỗ trợ lập trình của GitHub CoPilot và ChatGPT của OpenAI.)

GPU của Eos có khả năng thực hiện tổng cộng 42,6 tỷ tỷ phép tính hàng thập phân mỗi giây (exaflops). Và chúng được kết nối với nhau bằng cách sử dụng kết nối mạng nội bộ Quantum-2 Infiniband của Nvidia, có khả năng truyền 1,1 triệu tỷ byte mỗi giây. “Một số tốc độ và thông số này thật là đáng kinh ngạc,” Dave Salvatore, Giám đốc kiểm tra AI và điện toán đám mây của Nvidia, nói. “Đây là một máy tính cực kỳ mạnh mẽ.”

Eos nhân ba số lượng GPU H100 đã được kết hợp thành một máy tính duy nhất. Sự gia tăng ba lần này đã đạt được cải tiến hiệu suất 2,8 lần, hoặc đạt hiệu quả tỉ lệ 93%. Sự gia tăng hiệu suất hiệu quả là yếu tố quan trọng để tiếp tục cải thiện AI sáng tạo, mà đã tăng gấp mười lần mỗi năm.

Bài kiểm tra GPT-3 mà Eos đã tham gia không phải là một quá trình huấn luyện hoàn chỉnh của GPT-3, vì MLPerf muốn nó trong tầm tay của nhiều công ty. Thay vào đó, nó liên quan đến việc huấn luyện hệ thống đến một điểm kiểm tra nhất định chứng minh rằng việc huấn luyện sẽ đạt độ chính xác cần thiết trong thời gian đủ. Và những quá trình huấn luyện này mất thời gian. Từ việc tham gia của Eos trong 4 phút, có thể suy ra rằng nó sẽ mất tám ngày để hoàn thành quá trình huấn luyện, và đó là trên máy tính AI siêu mạnh nhất có thể đã được xây dựng. Một máy tính có kích thước hợp lý hơn – 512 H100 – sẽ mất bốn tháng.

Intel tiếp tục tiến gần hơn

Intel đã nộp kết quả cho các hệ thống sử dụng chip tăng tốc Gaudi 2 và cho những hệ thống không có bất kỳ bộ tăng tốc nào, chỉ dựa vào CPU Xeon thế hệ thứ tư của họ. Thay đổi lớn so với bộ kiểm tra huấn luyện trước đó là công ty đã kích hoạt khả năng 8-bit floating-point (FP8) của Gaudi 2. Việc sử dụng số học chính xác thấp hơn, chẳng hạn như FP8, đã góp phần đáng kể vào việc cải thiện hiệu suất GPU trong 10 năm qua. Việc sử dụng FP8 trong các phần của GPT-3 và các mạng neural biến đổi khác mà độ chính xác thấp của chúng không ảnh hưởng đã chứng minh giá trị của nó trong kết quả H100 của Nvidia. Bây giờ Gaudi 2 đang nhận được sự thúc đẩy này.
“Chúng tôi đã dự tính tăng 90% từ việc bật FP8,” Eitan Medina, Giám đốc điều hành tại Habana Labs của Intel nói. “Chúng tôi đã cung cấp hơn những gì đã được hứa – giảm thời gian huấn luyện 103% cho một cụm tăng tốc 384.”

Kết quả mới này đưa hệ thống Gaudi 2 chỉ sử dụng một phần nhỏ hơn một phần ba tốc độ của hệ thống Nvidia trên cơ sở từng chip và nhanh gấp ba lần so với TPUv5e của Google. Trên bài kiểm tra tạo hình ảnh mới, Gaudi 2 cũng khoảng một nửa tốc độ của H100. GPT-3 là bài kiểm tra duy nhất được kích hoạt FP8 cho vòng này, nhưng Medina nói rằng đội của ông đang làm việc để kích hoạt nó cho các bài kiểm tra khác.

Medina tiếp tục thể hiện quan điểm rằng Gaudi 2 có giá thành thấp hơn đáng kể so với H100, và vì vậy nó có lợi thế về mức độ giá và hiệu suất. Medina kỳ vọng lợi thế sẽ tăng lên với thế hệ tiếp theo của chip tăng tốc Intel, Gaudi 3. Chip này sẽ được sản xuất hàng loạt vào năm 2024 và được xây dựng bằng cùng quy trình chế tạo bán dẫn như Nvidia H100.

Riêng biệt, Intel đã nộp kết quả cho các hệ thống chỉ dựa trên CPU, một lần nữa cho thấy thời gian huấn luyện từ vài phút đến vài giờ cho một số bài kiểm tra. Ngoài bài kiểm tra MLPerf, Intel cũng chia sẻ một số dữ liệu cho thấy một hệ thống Xeon gồm 4 nút, với các chip bao gồm động cơ ma trận AMX, có thể điều chỉnh lại bộ tạo hình ảnh Stable Diffusion trong chưa đầy 5 phút. Điều chỉnh lại là quá trình làm cho mạng neural đã được huấn luyện trở nên chuyên môn hơn đối với một nhiệm vụ nhất định. Ví dụ, AI thiết kế chip của Nvidia là việc điều chỉnh lại một mô hình ngôn ngữ lớn có tên là Nemo.