MIT tìm ra cách tăng tốc huấn luyện AI tới hơn 2 lần mà không cần thêm GPU, chìa khóa nằm ở “thời gian chết” của hệ thống

01-03-2026 – 16:30 PM | Kinh tế số

Một kỹ thuật mới giúp rút ngắn thời gian huấn luyện mô hình ngôn ngữ lớn tới 210% bằng cách tận dụng tài nguyên GPU vốn bị lãng phí.

TIN MỚI

MIT tìm ra cách tăng tốc huấn luyện AI tới hơn 2 lần mà không cần thêm GPU, chìa khóa nằm ở

Huấn luyện các mô hình ngôn ngữ lớn đang trở thành một trong những hoạt động tốn kém nhất trong lĩnh vực AI hiện nay. Chi phí không chỉ nằm ở số lượng GPU được triển khai, mà còn ở cách khai thác hiệu suất của chúng. Khi quy mô mô hình ngày càng mở rộng, những điểm nghẽn nhỏ trong vận hành cũng có thể biến thành tổn thất lớn về thời gian và năng lượng.

Một nhóm nghiên cứu từ MIT, phối hợp cùng các cộng sự bao gồm NVidia, cho biết đã tìm ra một phương pháp thực tế nhằm thu hồi phần năng lực tính toán đang bị lãng phí trong quá trình huấn luyện. Theo kết quả công bố, giải pháp này có thể rút ngắn gần một nửa tổng thời gian đào tạo trong nhiều trường hợp.

Vấn đề mà nhóm nhắm tới xuất hiện trong giai đoạn reinforcement learning, cụ thể là bước “rollout”. Đây là quá trình mô hình tạo ra nhiều phản hồi ứng viên để đánh giá và học cách tối ưu hành vi. Với các mô hình ngôn ngữ lớn tập trung vào khả năng suy luận, rollout là thành phần không thể thiếu, nhưng cũng là khâu tiêu tốn nhiều tài nguyên nhất.

Trên thực tế, giai đoạn này có thể chiếm tới 85% tổng thời gian thực thi. Nguyên nhân đến từ hiện tượng “phân phối đuôi dài” về độ dài phản hồi. Phần lớn câu trả lời được tạo ra khá nhanh, nhưng một số ít lại kéo dài vượt trội. Do GPU phải đồng bộ hóa, các GPU hoàn tất sớm buộc phải chờ những tác vụ chậm hơn, tạo ra khoảng thời gian nhàn rỗi không được tận dụng.

Giải pháp mà nhóm MIT đề xuất mang tên Taming the Long Tail, viết tắt là TLT, được thiết kế để xử lý trực diện sự lãng phí này. Thay vì để GPU nhàn rỗi trong lúc chờ các tác vụ kéo dài, hệ thống tận dụng chính khoảng thời gian đó để huấn luyện một mô hình “nháp” nhẹ hơn theo thời gian thực. Mô hình phụ này liên tục học từ mô hình chính trong suốt quá trình đào tạo.

Cách tiếp cận này dựa trên kỹ thuật speculative decoding, nơi một mô hình nhỏ dự đoán trước các token để mô hình chính có thể xác thực song song nhiều token cùng lúc. Tuy nhiên, trong các phương pháp truyền thống, mô hình nháp thường cố định và nhanh chóng lỗi thời khi mô hình chính tiếp tục thay đổi trong quá trình reinforcement learning.

TLT thay đổi điều đó bằng cách tái huấn luyện mô hình nháp một cách cơ hội, sử dụng đúng phần tài nguyên vốn đang bị bỏ trống. Nhờ vậy, mô hình phụ luôn duy trì sự đồng bộ với mô hình chính mà không cần bổ sung thêm hạ tầng tính toán riêng biệt.

Thử nghiệm trên nhiều mô hình ngôn ngữ tập trung vào suy luận và các bộ dữ liệu thực tế cho thấy kết quả đáng chú ý. Nhóm nghiên cứu ghi nhận mức tăng tốc huấn luyện toàn trình từ 70% đến 210% so với các phương pháp nền tảng mạnh, đồng nghĩa trong nhiều tình huống, tốc độ đào tạo gần như được nhân đôi. Quan trọng hơn, độ chính xác của mô hình không bị ảnh hưởng.

Một lợi ích phụ cũng được ghi nhận là chính mô hình nháp được huấn luyện liên tục này có thể trở thành một sản phẩm hữu ích. Do được đào tạo song song với mô hình chính, nó có thể đóng vai trò như một mô hình suy luận hiệu quả trong một số bối cảnh nhất định.

Nghiên cứu này phản ánh xu hướng đáng chú ý trong ngành AI hiện nay: tối ưu hóa thay vì chỉ mở rộng quy mô phần cứng. Thay vì liên tục bổ sung thêm cụm máy chủ, các nhà nghiên cứu đang tìm cách khai thác tối đa hiệu suất từ hạ tầng sẵn có.

Nếu những phương pháp như TLT chứng minh được độ ổn định ở quy mô công nghiệp lớn, tác động có thể không chỉ dừng ở hiệu năng mà còn giúp giảm đáng kể chi phí tài chính và tác động môi trường khi huấn luyện các mô hình suy luận thế hệ mới.

Theo Max

Thanh niên Việt

Theo Thanh niên Việt Copy link

Link bài gốc Lấy link! https://thanhnienviet.vn/mit-tim-ra-cach-tang-toc-huan-luyen-ai-toi-hon-2-lan-ma-khong-can-them-gpu-chia-khoa-nam-o-thoi-gian-chet-cua-he-thong-209260228073339676.htm

Chia sẻ

Từ Khóa:

CÙNG CHUYÊN MỤC

Xem theo ngày XEM

Những “ông lớn” đứng sau dàn robot nhảy múa, pha trò trên sóng truyền hình Trung Quốc: Từ sân khấu gala đến tham vọng thống lĩnh thị trường toàn cầu Nổi bật

2 ứng dụng người dùng nên xóa ngay để không bị lộ tin nhắn Nổi bật

Giám đốc Công an Hà Nội: Sớm sử dụng thiết bị bay không người lái giám sát an ninh

15:30 , 01/03/2026

Lai Châu: Phát sinh giao dịch 170 triệu đồng, chủ tài khoản Vietcombank làm việc với Công an

14:52 , 01/03/2026

Chính thức từ hôm nay (1/3/2026): Ảnh, video do AI tạo ra phải có dấu hiệu nhận biết

14:41 , 01/03/2026

Meta kiện các doanh nghiệp sử dụng deepfake quảng cáo trái phép

14:30 , 01/03/2026

MIT tìm ra cách tăng tốc huấn luyện AI tới hơn 2 lần mà không cần thêm GPU, chìa khóa nằm ở “thời gian chết” của hệ thống

MIT tìm ra cách tăng tốc huấn luyện AI tới hơn 2 lần mà không cần thêm GPU, chìa khóa nằm ở “thời gian chết” của hệ thống

Một kỹ thuật mới giúp rút ngắn thời gian huấn luyện mô hình ngôn ngữ lớn tới 210% bằng cách tận dụng tài nguyên GPU vốn bị lãng phí.

CÙNG CHUYÊN MỤC

Những “ông lớn” đứng sau dàn robot nhảy múa, pha trò trên sóng truyền hình Trung Quốc: Từ sân khấu gala đến tham vọng thống lĩnh thị trường toàn cầu Nổi bật

2 ứng dụng người dùng nên xóa ngay để không bị lộ tin nhắn Nổi bật

Giám đốc Công an Hà Nội: Sớm sử dụng thiết bị bay không người lái giám sát an ninh

Lai Châu: Phát sinh giao dịch 170 triệu đồng, chủ tài khoản Vietcombank làm việc với Công an

Chính thức từ hôm nay (1/3/2026): Ảnh, video do AI tạo ra phải có dấu hiệu nhận biết

Meta kiện các doanh nghiệp sử dụng deepfake quảng cáo trái phép

admin

Leave a Reply Cancel reply

Token Là Gì? Cách Dùng Token Trong Giao Dịch Mới Nhất 2023

10 ứng dụng quản lý tài chính cá nhân miễn phí, tiện lợi

Đề xuất mới: Chồng có thể nghỉ ít nhất 10 ngày khi vợ sinh con

Những sai lầm về quản lý tài chính của người mới làm cha mẹ

4 quy tắc quản lý tài chính gia đình hiệu quả mà ai cũng nên áp dụng

Tự do tài chính – Khái niệm, giai đoạn và lộ trình hiệu quả

Điều kiện nghỉ hưu sớm của người lao động

Chiến lược quản lý tài chính hiệu quả sau khi sinh con

Người có thu nhập dưới 15 triệu/ tháng được hỗ trợ mua nhà ở xã hội

Latest from Blog

Gần 30 tấn vàng rời kho một tổ chức từ đầu tháng 3, điều gì đang xảy ra?

TP.HCM sắp đấu giá 8 lô đất Thủ Thiêm

Công an làm việc với người quản lý gần 700 nhóm Facebook đặt tên theo xã, phường

Doanh nghiệp địa ốc trong hệ sinh thái Lã Vọng Group tiếp tục báo lỗ, tài chính tiềm ẩn nhiều rủi ro

BĐS giá trị thực lên ngôi, dinh thự đa công năng hút mạnh dòng tiền