Đăng ký Hội viên Premium

Bạn cần có tài khoản thu phí để truy cập nội dung này.

Đăng ký ngay
Hoặc

Đã có tài khoản?

Đăng nhập tại đây

Ấn phẩm in mới nhất

Trước khi DeepSeek gây chấn động, Chatbot Arena đã báo hiệu sự xuất hiện của nó

Một hệ thống xếp hạng chatbot dựa trên đánh giá cộng đồng đã trở thành công cụ giúp giới trong ngành AI xác định mô hình nào hoạt động hiệu quả nhất.
Tác giả: Rachel Metz
Trước khi DeepSeek gây chấn động, Chatbot Arena đã báo hiệu sự xuất hiện của nó

Đối với phần lớn thế giới, DeepSeek dường như bùng nổ từ hư không vào tháng Một với phần mềm trí tuệ nhân tạo (AI) mã nguồn mở cạnh tranh được với các mô hình của OpenAI và Google— tất cả được phát triển có thể với chi phí chỉ bằng một góc những mô hình đi trước. Nhưng với những người hâm mộ của trang web Chatbot Arena, đây chỉ là khoảnh khắc biết trước đối với họ: Họ đã theo dõi—và đánh giá—tiến bộ của các mô hình từ công ty Trung Quốc đứng sau DeepSeek suốt nhiều tháng qua.

Là dự án nghiên cứu được lập ra đầu năm 2023 ở phòng thí nghiệm Sky Computing, đại học California (UC) ở Berkeley, trang này cho phép người dùng thử các con chatbot của nhiều mô hình AI khác nhau và bỏ phiếu bình chọn. Họ đóng vai trò “một bên thứ ba độc lập có động lực đo lường trung thực tiến trình phát triển của AI,” theo Wei-Lin Chiang, lãnh đạo Chatbot Arena và nghiên cứu sinh sau tiến sĩ ở UC Berkeley. “Ai cũng nói mô hình của họ là nhất, nên rất cần sự minh bạch và đánh giá độc lập.”

2000x1334-2--11
Wei-Lin Chiang và Anastasios Angelopoulos của Chatbot Arena trong phòng thí nghiệm của họ ở Berkeley, California. Hình ảnh: Laura Morton/Wall Street Journal

Chatbot Arena đã sớm trở thành nơi đánh giá đi đầu trong lĩnh vực đánh giá AI đang thay đổi nhanh chóng: Họ có một triệu lượt người dùng mỗi tháng. Cả các công ty AI hàng đầu lẫn những tay chơi mã nguồn mở mới xuất hiện đều đổ về đó để thử nghiệm mô hình mới của họ. Một số công ty thậm chí đưa mô hình thử nghiệm lên đó trước khi công bố cho đại chúng (như OpenAI với GPT-4o mùa Xuân năm ngoái).

Khi mọi chuyện diễn ra suôn sẻ, thì đó là nơi để họ tự hào, giống như DeepSeek (dù cũng gây tiếng vang ở tầm quốc tế, không phải lúc nào cũng tích cực). Người dùng Chatbot Arena đã dùng thử một số mô hình mã nguồn mở của DeepSeek, cái sau lại được đánh giá cao hơn cái trước. Mô hình mới nhất của công ty này là V3, thuộc loại ngôn ngữ lớn như ChatGPT, và R1, tốn nhiều thời gian tính toán hơn trước khi xuất ra câu trả lời. Họ đưa các mô hình đó lên Chatbot Arena lần lượt vào cuối tháng 12.2024 và tháng 1.2025, cả hai đều leo hạng nhanh chóng.

Bài liên quan