Categories
Điểm Tin AI

Khi nói về Mô hình AI, lớn hơn không phải lúc nào cũng tốt hơn

Các mô hình trí tuệ nhân tạo (AI) đang ngày càng trở nên lớn hơn, đi kèm với đó là các bộ dữ liệu được sử dụng để huấn luyện chúng. Tuy nhiên, việc thu nhỏ có thể giải quyết một số vấn đề lớn của AI. […] Vì vậy, đôi khi nhỏ hơn có thể thông minh hơn.

Bản tin được tóm tắt Anh-Việt bởi nền tảng tạo trợ lý AI – KamiMind.

Nguồn: Lauren Leffer, “When It Comes to AI Models, Bigger Isn’t Always Better“, Scientific American, 21/11/2023.

Các mô hình trí tuệ nhân tạo (AI) đang ngày càng trở nên lớn hơn, đi kèm với đó là các bộ dữ liệu được sử dụng để huấn luyện chúng. Tuy nhiên, việc thu nhỏ có thể giải quyết một số vấn đề lớn của AI. Các mô hình ngôn ngữ lớn (LLMs) tạo ra các chatbot nổi tiếng như ChatGPT của OpenAI và Bard của Google, được tạo thành từ hơn 100 tỷ tham số. Tuy nhiên, khi các mô hình trở nên lớn hơn, chúng cũng trở nên khó kiểm soát, tiêu tốn năng lượng và khó xây dựng hơn. Các mô hình và bộ dữ liệu nhỏ hơn có thể giúp giải quyết vấn đề này.

Ví dụ, vào tháng 9 vừa qua, một nhóm các nhà nghiên cứu của Microsoft đã công bố một báo cáo kỹ thuật về một mô hình ngôn ngữ mới có tên là phi-1.5. Phi-1.5 bao gồm 1.3 tỷ tham số, chỉ bằng một phần trăm kích thước của GPT-3.5, mô hình nằm dưới phiên bản miễn phí của ChatGPT. Nhưng dù kích thước tương đối nhỏ, phi-1.5 vẫn “thể hiện nhiều đặc điểm của các LLMs lớn hơn nhiều,” theo như tác giả viết trong báo cáo của họ.

Huấn luyện và chạy một mô hình AI với hơn 100 tỷ tham số tốn rất nhiều năng lượng. Một ngày tiêu chuẩn của việc sử dụng ChatGPT trên toàn cầu có thể tiêu tốn điện năng tương đương với khoảng 33,000 hộ gia đình ở Mỹ, theo ước tính của kỹ sư máy tính Sajjad Moazeni từ Đại học Washington. AI nhỏ hơn cần ít công suất tính toán và năng lượng để chạy, theo Matthew Stewart, một kỹ sư máy tính tại Đại học Harvard. Điều này giúp cải thiện tính bền vững.

Hơn nữa, AI ít tốn tài nguyên hơn cũng dễ tiếp cận hơn. Hiện tại, chỉ có một số ít công ty tư nhân có đủ kinh phí và không gian máy chủ để xây dựng, lưu trữ, huấn luyện và chỉnh sửa các LLMs lớn nhất. Các mô hình nhỏ hơn có thể được phát triển và nghiên cứu bởi nhiều người hơn. Việc nghĩ nhỏ “có thể dân chủ hóa AI,” theo Eva Portelance, một nhà nghiên cứu ngôn ngữ học tính toán và nhận thức tại Viện Trí tuệ nhân tạo Mila-Quebec.

Cuối cùng, có một vấn đề cơ bản hơn về khả năng giải thích: mức độ mà một mô hình học máy có thể được hiểu bởi nhà phát triển của nó. Đối với các mô hình AI lớn hơn, việc phân tích vai trò của từng tham số gần như không thể. Trong các mô hình nhỏ hơn, việc xác định nguyên nhân và kết quả và điều chỉnh theo đó dễ dàng hơn, mặc dù thường vẫn khó khăn. “Tôi thích cố gắng hiểu một triệu tham số hơn là một tỷ tham số,” Brenden Lake, một nhà khoa học về tính toán nhận thức nghiên cứu lĩnh vực trí tuệ nhân tạo tại Đại học New York, nói.

Vì vậy, đôi khi nhỏ hơn có thể thông minh hơn.

Bản tóm tắt tiếng Anh

Artificial Intelligence (AI) models are experiencing a paradigm shift, moving away from sheer size towards more compact, yet equally potent models. The large language models (LLMs) such as OpenAI’s ChatGPT and Google’s Bard, which consist of over 100 billion parameters, are becoming increasingly cumbersome, energy-intensive, and challenging to manage. Thus, the tech industry is exploring the potential of smaller AI models, as exemplified by Microsoft’s new language model, phi-1.5, which comprises 1.3 billion parameters, yet demonstrates capabilities akin to much larger models.

The benefits of smaller AI models are evident in their lower energy requirements and increased accessibility. Current mega models are not only power-hungry but also restricted to a few big tech companies with the necessary resources. Conversely, smaller models democratize AI, enabling more people to engage in their development and use. Moreover, they can fit into smaller devices, providing enhanced functionality without the need for cloud-based operations, thereby enhancing data security.

Furthermore, smaller AI models have the advantage of interpretability – the ability for developers to understand the role of each parameter, which is virtually impossible in larger models. This interpretability can lead to insights into human learning that can be replicated in AI, creating more “cognitively plausible” models.

However, it’s important to note that while smaller models are making strides, larger AIs like Bard, GPT-3.5, and GPT-4 are still more capable. Yet, the emergence and success of compact models like phi-1.5 and phi-2 suggest that small AI models can indeed be mighty and can potentially solve some of the problems posed by larger AI models. As AI continues to evolve, the focus seems to be shifting towards a more economical, sustainable, and inclusive approach.