Thâm Quyến, Trung Quốc — Ngày 18 tháng 11 năm 2025 — Khi nhu cầu toàn cầu về công suất tính toán AI tiếp tục tăng mạnh, Aethlumis hôm nay đã công bố ra mắt máy chủ AI cao cấp mới nhất của mình, TG990V3. Sau khi hoàn thành các đợt triển khai giai đoạn đầu tại các công ty internet lớn, các tổ chức nghiên cứu AI và nhà cung cấp dịch vụ đám mây, TG990V3 đã chứng minh những bước đột phá đáng kể về hiệu suất trong việc đào tạo mô hình quy mô lớn. Trong các bài kiểm tra liên quan đến khối lượng công việc hàng nghìn tỷ tham số, máy chủ đạt được mức cải thiện lên đến 40% về hiệu suất đào tạo tổng thể, đồng thời rút ngắn chu kỳ đào tạo từ 30%–32% so với thế hệ trước.

Cơ Sở Hạ Tầng AI Đạt Đến Điểm Chuyển Mình Mới
Với quy mô mô hình mở rộng từ hàng tỷ lên hàng nghìn tỷ tham số trong hai năm qua, khoảng cách giữa sự tiến bộ của thuật toán và cơ sở hạ tầng tính toán đã trở nên ngày càng rõ rệt. Tại buổi ra mắt, CEO Aethlumis, Vương Khải Hàng, nhấn mạnh:
“Tốc độ phát triển của các mô hình lớn đã vượt xa tốc độ nâng cấp cơ sở hạ tầng truyền thống. TG990V3 được thiết kế để mang lại hiệu suất đào tạo cao hơn mà không làm tăng chi phí phần cứng hay mức tiêu thụ điện năng, cho phép các đội ngũ AI lặp lại nhanh hơn và bền vững hơn.”
Các nhà phân tích ngành nhận định rằng cuộc cạnh tranh giữa các máy chủ AI đã chuyển dịch từ việc tích hợp phần cứng thô sang tối ưu hóa kiến trúc ở cấp hệ thống — một định hướng mà TG990V3 thể hiện rõ nét.


Kiến trúc Kết nối Hiệu suất Cao: Tận dụng băng thông điểm-điểm trên 95% trong quá trình đào tạo mô hình 1 nghìn tỷ tham số
Được trang bị tám mô-đun GPU OAM dựa trên tiêu chuẩn OAI 2.0, TG990V3 áp dụng một bố cục kết nối đa tầng thế hệ mới, được tối ưu hóa cho việc huấn luyện phân tán quy mô lớn.
Trong thử nghiệm nội bộ do một công ty internet hàng đầu thực hiện trên mô hình nghìn tỷ tham số:
• Hiệu suất kết nối giữa GPU với GPU duy trì ổn định ở mức 95–96%
• Độ trễ đồng bộ hóa gradient giảm 27%
• Tổng thông lượng cụm tăng 21%
Một giám đốc kỹ thuật từ phòng thí nghiệm AI đánh giá nhận xét:
“Khi huấn luyện các mô hình ở quy mô này, mỗi phần trăm hiệu quả truyền thông đều quan trọng. TG990V3 duy trì hiệu suất ổn định ngay cả khi mở rộng kích thước cụm, đây là lợi thế lớn.”

Thiết kế Tỷ lệ Vàng I/O: Loại bỏ tắc nghẽn dữ liệu trong huấn luyện AI
Một thách thức dai dẳng trong huấn luyện AI là các GPU hiệu suất cao thường bị sử dụng dưới công suất do tắc nghẽn I/O — băng thông mạng không đủ, thông lượng lưu trữ hạn chế hoặc đường ống tải dữ liệu chậm.
Để giải quyết vấn đề này, Aethlumis đã giới thiệu kiến trúc hiếm có trong ngành 8 : 8 : 16 (GPU : NIC : NVMe):
• 400 Gbps băng thông mạng chuyên dụng cho mỗi GPU
• Hai ổ SSD NVMe Gen4/Gen5 độc lập cho mỗi GPU
• Giảm hơn 60% độ trễ tải dữ liệu
Một công ty khởi nghiệp AI trong nước tham gia thử nghiệm sớm lưu ý rằng hiệu suất sử dụng GPU duy trì ổn định ở mức 94%–97%, cao đáng kể so với mức 70–75% trên các máy chủ hiện có của họ.

Độ tin cậy cấp độ cụm: MTTR dưới 3 phút, mở rộng quy mô tuyến tính lên đến 92%
Được thiết kế cho khối lượng công việc huấn luyện quy mô lớn và kéo dài, TG990V3 sở hữu kiến trúc hoàn toàn mô-đun với các module GPU, quạt, nguồn và mạng có thể thay thế nóng.
Kết quả thử nghiệm từ khách hàng ban đầu ghi nhận:
• Thời gian trung bình để sửa chữa (MTTR) giảm từ 10–12 phút xuống dưới 3 phút
• Độ khả dụng hệ thống đạt 99,95% trong suốt các chu kỳ huấn luyện liên tục 24/7
• Hiệu suất mở rộng quy mô tuyến tính đạt 92% trong các cụm hàng ngàn card
• Điều này đảm bảo độ tin cậy chưa từng có cho các doanh nghiệp vận hành môi trường huấn luyện phân tán quy mô lớn.
Các Chỉ Số Hiệu Năng Thực Tế (từ những người tiên phong áp dụng)
• Giảm 32% thời gian đào tạo cho các mô hình ngôn ngữ lớn (LLM) có hàng nghìn tỷ tham số
• Cải thiện hơn 60% thông lượng tải dữ liệu
• Hiệu suất mở rộng đạt 92% trong các cụm đa nút
• Độ khả dụng đạt 99,95% trong các tác vụ chạy dài hạn
Các ứng dụng bao gồm:
• Đào tạo mô hình ngôn ngữ lớn (LLM) (LLaMA, dòng GPT, v.v.)
• Đào tạo mô hình đa phương thức (hình ảnh, âm thanh, video, 3D)
• Các nền tảng AI doanh nghiệp và cụm suy luận
• Môi trường tính toán nghiên cứu cấp đại học và cấp quốc gia

Xây Dựng Thế Hệ Cơ Sở Hạ Tầng AI Tiếp Theo
Tiến sĩ Li Zhang, Phó Chủ tịch phụ trách Sản phẩm tại Aethlumis, kết luận:
“TG990V3 không phải là bản nâng cấp phần cứng đơn thuần. Đây là sự tối ưu hóa ở cấp độ hệ thống cho toàn bộ quy trình huấn luyện mô hình lớn — bao gồm kiến trúc kết nối, hệ thống I/O và vận hành thông minh. Chúng tôi thiết kế sản phẩm này để hỗ trợ cho ba năm tăng trưởng mạnh mẽ tiếp theo về quy mô mô hình.”
TG990V3 hiện đã sẵn sàng triển khai ở quy mô doanh nghiệp và đang được sử dụng trên nhiều nền tảng đám mây cũng như các công ty AI.