Đăng ký Hội viên Premium

Bạn cần có tài khoản thu phí để truy cập nội dung này.

Hoặc

Đã có tài khoản?

Ấn phẩm in mới nhất

Tháng 05.2026

Tháng 02.2026

Tháng 12.2025

Tháng 10.2025

Tháng 09.2025

Tháng 08.2025

Tháng 07.2025

Tháng 06.2025

Tháng 05.2025

Tháng 04.2025

Từ khóa tìm kiếm thịnh hành

Tìm kiếm

AI & Dữ liệu lớn

Google ra mắt thuật toán nén bộ nhớ AI, giảm 50% chi phí vận hành mô hình

Google ra mắt TurboQuant, thuật toán nén bộ nhớ giúp giảm tới sáu lần dung lượng và cắt giảm chi phí vận hành cho các mô hình trí tuệ nhân tạo.

Tác giả: Minh Khoa

Google ra mắt thuật toán nén bộ nhớ AI, giảm 50% chi phí vận hành mô hình

Google Research vừa phát hành bộ thuật toán TurboQuant với khả năng giảm trung bình tới 6 lần lượng bộ nhớ cần thiết cho các mô hình trí tuệ nhân tạo, theo VentureBeat, qua đó có thể cắt giảm đáng kể chi phí vận hành mô hình AI. Giải pháp này nhanh chóng được giới công nghệ quan tâm nhờ khả năng nén dữ liệu gần như không làm giảm chất, giải quyết một trong những rào cản phần cứng lớn nhất của ngành công nghiệp AI hiện nay.

Khi các mô hình ngôn ngữ lớn (LLM) ngày càng mở rộng cửa sổ ngữ cảnh để xử lý những tài liệu đồ sộ và các cuộc hội thoại phức tạp, hệ thống phải đối mặt với một thực tế phần cứng khắc nghiệt mang tên điểm nghẽn bộ nhớ đệm Key-Value (KV cache). Mỗi từ ngữ mà mô hình xử lý đều phải được lưu trữ dưới dạng một vector đa chiều trong bộ nhớ tốc độ cao. Đối với các tác vụ văn bản dài, lượng dữ liệu tạm thời này tăng nhanh, tiêu thụ phần lớn dung lượng RAM video (VRAM) của bộ xử lý đồ họa (GPU) trong quá trình suy luận. Hệ quả tất yếu là hiệu suất của mô hình bị suy giảm nghiêm trọng theo thời gian, kéo theo chi phí vận hành tăng vọt đối với các tổ chức phát triển AI.

TurboQuant được giới thiệu như một giải pháp phần mềm giúp tối ưu hóa việc xử lý bộ nhớ KV cache thông qua phương pháp lượng tử hóa vector. Đây là kết quả của một quá trình nghiên cứu kéo dài nhiều năm bắt đầu từ năm 2024, dựa trên các khung toán học nền tảng như PolarQuant và Quantized Johnson-Lindenstrauss. Theo nhóm phát triển, TurboQuant có thể nén bộ nhớ KV mà không cần huấn luyện lại mô hình. Thử nghiệm ban đầu cho thấy công nghệ này thu gọn không gian lưu trữ trung bình xuống 6 lần và tăng tốc độ tính toán attention logits lên tới 8 lần. Điểm khác biệt cốt lõi của TurboQuant nằm ở khả năng thu nhỏ không gian làm việc của AI nhưng vẫn duy trì nguyên vẹn độ chính xác và trí thông minh của mô hình gốc.

Một số người dùng mạng xã hội ví TurboQuant với công nghệ nén dữ liệu trong phim Silicon Valley, gợi nhớ đến hình ảnh ‘Pied Piper’ nổi tiếng. Đây là tên một công ty khởi nghiệp hư cấu trong loạt phim truyền hình Silicon Valley của đài HBO, nổi tiếng với thuật toán nén tệp tin thu nhỏ kích thước dữ liệu mà không làm mất thông tin. Sự tương đồng giữa khả năng nén của TurboQuant và công nghệ hư cấu trong phim khiến cộng đồng mạng thích thú, thậm chí gắn cho thuật toán này điểm số Weismann giả định là 5.2 theo đúng kịch bản phim.

Theo quy định của Luật Xuất Bản của Việt Nam, Bloomberg L.P. và Công ty Cổ phần Beacon Asia Media đạt thỏa thuận với Báo Tài Nguyên và Môi Trường (nay là Báo Nông Nghiệp và Môi Trường) (là cơ quan báo chí chịu sự quản lý của Bộ Nông Nghiệp và Môi Trường) để báo là đơn vị chính thức tại Việt Nam chịu trách nhiệm phát hành ấn phẩm Phát Triển Xanh có nội dung trao đổi và hợp tác với Bloomberg Businessweek Vietnam

PHÁT TRIỂN XANH - Chuyên trang của Báo điện tử Tài nguyên và Môi trường

Trụ sở: Số 10, đường Tôn Thất Thuyết, phường Mỹ Đình, quận Nam Từ Liêm, thành phố Hà Nội

Giấy phép xuất bản số 37/GP-CBC do Bộ Thông tin và Truyền thông cấp ngày 21/10/2024

Tổng biên tập: Hoàng Mạnh Hà

Phó tổng biên tập phụ trách báo điện tử: Lê Xuân Dũng

Phó tổng biên tập: Lý Thị Hồng Điệp