Nvidia meluncurkan platform baru untuk manajemen armada GPU yang dirancang khusus bagi operator data center dengan infrastruktur kecerdasan buatan (AI) berskala besar. Sistem ini memungkinkan pemantauan kondisi GPU secara real-time di berbagai lokasi global, mulai dari kesehatan perangkat keras, efisiensi energi, hingga posisi fisik GPU yang sedang beroperasi.
Platform ini bekerja dengan menarik data telemetri dari lingkungan on-premises maupun cloud ke dalam layanan NGC (Nvidia GPU Cloud). Di setiap sistem pelanggan, Nvidia menanamkan agen yang dikelola sepenuhnya oleh operator. Agen tersebut mengumpulkan data teknis dan mengirimkannya ke dashboard terpusat di NGC, sehingga pengelola dapat melihat kondisi infrastruktur secara menyeluruh dari satu titik.

Melalui dashboard tersebut, operator bisa memantau armada GPU dalam beberapa lapisan, mulai dari gambaran global seluruh perangkat yang terpasang, zona komputasi berdasarkan lokasi data center, hingga detail per node.
Salah satu fitur yang mencuri perhatian adalah kemampuan melacak lokasi fisik GPU, yang secara tidak langsung dapat membantu mendeteksi penggunaan perangkat di wilayah yang seharusnya tidak diizinkan.
Meski demikian, Nvidia menegaskan platform ini murni bersifat pemantauan. Sistem tidak memiliki kemampuan untuk mematikan GPU, mengubah konfigurasi dari jarak jauh, atau bertindak sebagai kill switch. Nvidia menyebut perangkat lunak ini bersifat open source, sepenuhnya diinstal dan dikendalikan oleh pelanggan, serta dapat diaudit secara independen untuk menghindari kekhawatiran adanya backdoor.
Dari sisi operasional, platform ini memberi nilai tambah signifikan. Telemetri yang dikumpulkan mencakup konsumsi daya hingga lonjakan beban singkat, sehingga operator dapat mengoptimalkan penggunaan listrik dan menjaga efisiensi energi.
Sistem juga memantau utilisasi GPU, bandwidth memori, serta performa interkoneksi antar node, yang kerap menjadi sumber bottleneck tersembunyi dalam pelatihan dan inferensi AI berskala besar.
Aspek termal juga menjadi fokus. Agen pemantauan mampu mendeteksi ketidakseimbangan panas dan aliran udara pada rak server berdensitas tinggi. Deteksi dini ini memungkinkan tindakan korektif sebelum terjadi throttling atau penurunan umur komponen akibat panas berlebih.
Platform baru ini melengkapi, bukan menggantikan, solusi Nvidia yang sudah ada. Data Center GPU Manager tetap digunakan untuk diagnostik tingkat node, sementara Base Command menangani penjadwalan workload AI. Kehadiran sistem manajemen armada ini mengisi celah di tingkat visibilitas skala besar, seiring infrastruktur AI yang kian meluas dan kompleks secara global, demikian dikutip detikINET dari Techspot, Selasa (16/12/2025).
Sumber: detik.com














