Đăng ký Hội viên Premium
Bạn cần có tài khoản thu phí để truy cập nội dung này.
Ấn phẩm in mới nhất
Đăng ký Hội viên Premium
Bạn cần có tài khoản thu phí để truy cập nội dung này.
Một sản phẩm của BEACON MEDIA
Google Research vừa phát hành bộ thuật toán TurboQuant với khả năng giảm trung bình tới 6 lần lượng bộ nhớ cần thiết cho các mô hình trí tuệ nhân tạo, theo VentureBeat, qua đó có thể cắt giảm đáng kể chi phí vận hành mô hình AI. Giải pháp này nhanh chóng được giới công nghệ quan tâm nhờ khả năng nén dữ liệu gần như không làm giảm chất, giải quyết một trong những rào cản phần cứng lớn nhất của ngành công nghiệp AI hiện nay.
Khi các mô hình ngôn ngữ lớn (LLM) ngày càng mở rộng cửa sổ ngữ cảnh để xử lý những tài liệu đồ sộ và các cuộc hội thoại phức tạp, hệ thống phải đối mặt với một thực tế phần cứng khắc nghiệt mang tên điểm nghẽn bộ nhớ đệm Key-Value (KV cache). Mỗi từ ngữ mà mô hình xử lý đều phải được lưu trữ dưới dạng một vector đa chiều trong bộ nhớ tốc độ cao. Đối với các tác vụ văn bản dài, lượng dữ liệu tạm thời này tăng nhanh, tiêu thụ phần lớn dung lượng RAM video (VRAM) của bộ xử lý đồ họa (GPU) trong quá trình suy luận. Hệ quả tất yếu là hiệu suất của mô hình bị suy giảm nghiêm trọng theo thời gian, kéo theo chi phí vận hành tăng vọt đối với các tổ chức phát triển AI.
TurboQuant được giới thiệu như một giải pháp phần mềm giúp tối ưu hóa việc xử lý bộ nhớ KV cache thông qua phương pháp lượng tử hóa vector. Đây là kết quả của một quá trình nghiên cứu kéo dài nhiều năm bắt đầu từ năm 2024, dựa trên các khung toán học nền tảng như PolarQuant và Quantized Johnson-Lindenstrauss. Theo nhóm phát triển, TurboQuant có thể nén bộ nhớ KV mà không cần huấn luyện lại mô hình. Thử nghiệm ban đầu cho thấy công nghệ này thu gọn không gian lưu trữ trung bình xuống 6 lần và tăng tốc độ tính toán attention logits lên tới 8 lần. Điểm khác biệt cốt lõi của TurboQuant nằm ở khả năng thu nhỏ không gian làm việc của AI nhưng vẫn duy trì nguyên vẹn độ chính xác và trí thông minh của mô hình gốc.
Một số người dùng mạng xã hội ví TurboQuant với công nghệ nén dữ liệu trong phim Silicon Valley, gợi nhớ đến hình ảnh ‘Pied Piper’ nổi tiếng. Đây là tên một công ty khởi nghiệp hư cấu trong loạt phim truyền hình Silicon Valley của đài HBO, nổi tiếng với thuật toán nén tệp tin thu nhỏ kích thước dữ liệu mà không làm mất thông tin. Sự tương đồng giữa khả năng nén của TurboQuant và công nghệ hư cấu trong phim khiến cộng đồng mạng thích thú, thậm chí gắn cho thuật toán này điểm số Weismann giả định là 5.2 theo đúng kịch bản phim.
Theo quy định của Luật Xuất Bản của Việt Nam, Bloomberg L.P. và Công ty Cổ phần Beacon Asia Media đạt thỏa thuận với Báo Tài Nguyên và Môi Trường (nay là Báo Nông Nghiệp và Môi Trường) (là cơ quan báo chí chịu sự quản lý của Bộ Nông Nghiệp và Môi Trường) để báo là đơn vị chính thức tại Việt Nam chịu trách nhiệm phát hành ấn phẩm Phát Triển Xanh có nội dung trao đổi và hợp tác với Bloomberg Businessweek Vietnam
PHÁT TRIỂN XANH - Chuyên trang của Báo điện tử Tài nguyên và Môi trường
Trụ sở: Số 10, đường Tôn Thất Thuyết, phường Mỹ Đình, quận Nam Từ Liêm, thành phố Hà Nội
Giấy phép xuất bản số 37/GP-CBC do Bộ Thông tin và Truyền thông cấp ngày 21/10/2024
Tổng biên tập: Hoàng Mạnh Hà
Phó tổng biên tập phụ trách báo điện tử: Lê Xuân Dũng
Phó tổng biên tập: Lý Thị Hồng Điệp