Superkomputer exascale pertama mengalami kegagalan perangkat keras setiap hari

Halo teman akrab TanyaTekno, ketemu kembali kita di artikel ini. Di artikel ini saya bakal membicarakan Superkomputer exascale pertama mengalami kegagalan perangkat keras setiap hari

Secara singkat: Frontier, superkomputer paling kuat di dunia, sedang online tetapi masih jauh dari operasional. Manajernya mengkonfirmasi laporan bahwa dia mengalami kegagalan sistem setiap beberapa jam, tetapi menegaskan ini setara dengan kursus.

Frontier memiliki kelas tersendiri. Ini berisi 9.408 node HPE Cray EX235a, masing-masing ditenagai oleh CPU AMD Trento 7A53 Epyc 64-core yang dilengkapi dengan 512GB DDR4, dan empat GPU/akselerator AMD Instinct MI250X yang masing-masing dilengkapi dengan 128GB HBM2e. Singkatnya, sistem ini memiliki total 602.112 core CPU dan 8.138.240 core GPU, dan 4,6 petabyte untuk DDR4 dan HBM2e.

Pada bulan Mei, Frontier bergabung dengan TOP500 sebagai superkomputer pertama yang memecahkan penghalang exascale setelah menyelesaikan standar HPL dengan skor 1,102 ExaFlops/s. Sejak itu, Laboratorium Nasional Oak Ridge di Tennessee, yang mengoperasikan superkomputer, telah mempersiapkannya untuk penelitian ilmiah yang dijadwalkan dimulai pada Januari.

Namun, ada laporan bahwa peluncuran Frontier bisa lamban karena kegagalan perangkat keras yang berlebihan. Untuk mendapatkan jawaban, Inside HPC mengadakan wawancara dengan Justin Witt, direktur program di Oak Ridge. Dalam wawancara, dia menegaskan bahwa Frontier mengalami kegagalan sehari-hari dalam sistem, tetapi menekankan bahwa itu tidak dapat dihindari dalam sistem yang begitu besar.

“Rata-rata waktu antara kegagalan dalam sistem ukuran ini adalah jam, bukan hari,” katanya. “Jadi, Anda harus memastikan bahwa Anda memahami apa kegagalan itu dan tidak ada pola kegagalan yang harus Anda khawatirkan.” Pergi selama sehari tanpa gagal “akan menyenangkan,” tambah Witt.

“Target kita masih berjam-jam.”

Ada desas-desus bahwa masalah perangkat keras disebabkan oleh AMD Instinct MI250X yang baru, tetapi Whitt membantahnya. MI250X adalah GPU/akselerator AMD yang paling kuat, dan hanya menjualnya kepada mitra tertentu. Ini memiliki 220 CU yang berisi 14.080 core clock pada 1700MHz dalam paket 500W.

“Masalahnya melibatkan banyak kelas yang berbeda, dan hanya satu GPU,” kata Witt. “Ini merupakan penyebaran yang cukup baik di antara penyebab umum kegagalan suku cadang yang merupakan bagian besar darinya. Saya tidak berpikir pada titik ini kami memiliki banyak kekhawatiran tentang produk AMD,” tambahnya.

“Kami berurusan dengan banyak hal di awal kehidupan yang telah kami lihat dengan perangkat lain yang kami gunakan, jadi itu tidak luar biasa.”

Witt mengakui bahwa jangkauan Frontier yang belum pernah terjadi sebelumnya membuat penyetelan “sedikit lebih sulit” tetapi mengatakan mereka masih mengikuti jadwal yang jatuh kembali pada 2018-2019 meskipun ada penundaan yang disebabkan oleh pandemi.

Kunjungi Inside HPC untuk membaca wawancara lengkapnya.

Demikianlah uraianmengenai Superkomputer exascale pertama mengalami kegagalan perangkat keras setiap hari

. Jangan Lupa untuk
berbagi artikel ini ya sobat.