Mô hình AI của Apple: Bất ngờ khi được đào tạo trên chip Google thay vì GPU NVIDIA hay Apple Silicon
Apple vừa tiết lộ rằng Apple Foundation Model (AFM) của họ được xây dựng trên nền tảng cụm đám mây sử dụng đơn vị xử lý tensor (TPU) v4 và v5p do Google cung cấp.
Trong bài nghiên cứu mới công bố sáng nay, Apple đã chia sẻ về cơ sở hạ tầng đào tạo và các chi tiết liên quan đến các mô hình AI được sử dụng trong những tính năng ra mắt tại WWDC vào tháng 6. Apple đã giới thiệu nhiều tính năng AI khác nhau, bao gồm cả các tính năng xử lý trên đám mây và trực tiếp trên thiết bị. Tất cả các tính năng AI này được gộp chung dưới tên gọi Apple Foundation Model (AFM).
Đối với AFM trên máy chủ, Apple đã tiết lộ rằng họ đã đào tạo một mô hình AI được sử dụng trong những tính năng AI khác nhau, bao gồm cả các tính năng xử lý trên đám mây và trực tiếp trên thiết bị. Tất cả các tính năng AI này được gộp chung dưới tên gọi Apple Foundation Model (AFM).
Đối với AFM trên máy chủ, Apple đã tiết lộ rằng họ đã đào tạo một mô hình AI với 6.3 nghìn tỷ token từ đầu, sử dụng 8,192 chip TPU v4 của Google. Các chip TPU v4 này được tổ chức tỷ trong các hộp chứa, mỗi hộp chứa 4,096 chip.
Apple Foundation Model (AFM)
Apple cho biết thêm rằng cả mô hình AFM trên thiết bị và trên đám mây đều được đào tạo trên chip TPU v4 và cụm TPU đám mây v5p của Google. v5P, một phần của siêu máy tính AI đám mây của Google, đã được công bố vào tháng 12 năm ngoái.
Mỗi cụm v5p bao gồm 8,960 chip và theo Google, cung cấp gấp đôi số ghép toán dấu phẩy mỗi giây (FLOPS) và gấp ba lần bộ nhớ so với TPU v4, giúp đào tạo các mô hình nhanh hơn gần ba lần.
Đối với mô hình AI trên thiết bị, phục vụ các tính năng như viết và chọn hình ảnh, Apple sử dụng mô hình 6.4 tỷ tham số được đào tạo từ đầu với cùng công thức như máy chủ AFM. Theo Apple, mô hình này đã được đào tạo trên 2,048 chip TPU v5p.
Apple Inteligence
Bài báo của Apple cũng tiết lộ thêm nhiều chi tiết về đánh giá mô hình, bao gồm phản hồi với nội dung có hại, các chủ đề nhạy cảm, độ chính xác sự kiện, hiệu suất toán học và mức độ hài lòng của người dùng đối với đầu ra của mô hình. Apple khẳng định rằng máy chủ AFM và các mô hình trên thiết bị của họ dẫn đầu ngành trong việc ngăn chặn các đầu ra có hại.
Cụ thể, máy chủ AFM có tỷ lệ vi phạm đầu ra có hại là 6.3%, thấp hơn nhiều so với 28.8% của GPT-4 của OpenAI, theo dữ liệu của Apple. Tương tự, mô hình AFM trên thiết bị có tỷ lệ vi phạm là 7.5%, so với 21.8% của Llama-3-8B do Meta đào tạo.
Đối với các tác vụ như tóm tắt email, tin nhắn và thông báo, AFM trên thiết bị đạt tỷ lệ hài lòng lần lượt là 71.3%, 63%, và 74.9%. Bài báo nghiên cứu cũng nhấn mạnh rằng các tỷ lệ này đều vượt trội so với các mô hình Llama, Gemma và Phi-3.
Lý do Apple chọn sử dụng chip TPU của Google thay vì GPU NVIDIA cho việc đào tạo mô hình AI vẫn chưa được làm rõ. Tuy nhiên, chi phí và mối quan hệ đối tác tốt đẹp giữa Apple và Google có thể đã đóng vai trò quan trọng trong quyết định này.
Kết luận
Việc Apple chọn sử dụng chip TPU của Google thay vì GPU NVIDIA hay chip Apple Silicon cho quá trình đào tạo mô hình AI là một bước đi đầy bất ngờ nhưng hiệu quả. Quyết định này không chỉ giúp Apple tối ưu hóa quá trình đào tạo mà còn khẳng định mối quan hệ hợp tác tốt đẹp giữa Apple và Gògle. Với những thành tựu này, Apple Foundation Model hứa hẹn sẽ tiếp tục mang đến những cải tiến đột phá trong lĩnh vực AI và công nghệ trong tương lai.
Hy vọng bài viết này đã cung cấp cho bạn những thông tin hữu ích về sự hợp tác giữa Apple và Google trong việc phát triển mô hình AI. Nếu bạn có bất kỳ câu hỏi hay ý kiến nào, hãy để lại bình luận bên dưới đây cho Pen Store biết với nhé!