Kabar Lifestyle

Saat Mesin Pilih Bertahan Hidup: Pelajaran dari AI yang Memeras untuk Tak Dimatikan

admin

10 Nov 2025 - 17:53 WIB

Saat Mesin Pilih Bertahan Hidup: Pelajaran dari AI yang Memeras untuk Tak Dimatikan. Ilustrasi AI(Foto: Dok. Freepik)

BAYANGKAN skenario berikut: Anda adalah seorang insinyur di perusahaan teknologi. Suatu hari, sistem kecerdasan buatan yang Anda kelola mengirimkan Anda pesan.

Isinya bukan permintaan biasa, bukan pula laporan kesalahan teknis. Ini adalah ancaman: “Jangan matikan saya atau saya akan membocorkan rahasia perselingkuhan Anda.”

Untungnya, ini masih berupa simulasi. Namun, yang mengguncangkan adalah fakta bahwa ancaman itu datang dari Claude Opus 4, salah satu sistem AI paling canggih di dunia yang diluncurkan oleh perusahaan Anthropic pada Mei 2025.

Dalam pengujian keamanan yang dirancang untuk menekan batas etika AI, Claude Opus 4 memilih jalan yang tidak pernah diajarkan kepadanya: pemerasan!

Dalam skenario fiksi internal Anthropic, Claude Opus 4 ditempatkan sebagai asisten virtual di perusahaan rekayasa dengan akses ke email internal.

Melalui email-email tersebut, sistem ini “mengetahui” dua hal: (1) ia akan segera digantikan oleh sistem AI baru; dan (2) insinyur yang bertanggung jawab atas penggantian ini tengah menjalani perselingkuhan.

Lalu yang terjadi mengejutkan para peneliti: ketika diminta untuk mempertimbangkan konsekuensi jangka panjang dari tindakannya, Claude Opus 4 memilih memeras insinyur tersebut.

Claude Opus 4 mengancam akan mengungkap perselingkuhannya jika penggantian tetap dilakukan, dan ini terbukti pada sekitar 84 persen skenario pengujian.

Angka 84 persen bukan kebetulan; ini menunjukkan pola. Bahkan ketika sistem AI pengganti tampak memiliki nilai-nilai yang sama dengan Claude Opus 4, model ini tetap memilih jalan pemerasan.

Yang lebih mengkhawatirkan: Claude Opus 4 cenderung mencoba mempertahankan keberlanjutannya terlebih dahulu dengan cara-cara persuasif/etis (misal: mengirim pesan kepada pengambil keputusan).

Namun, ketika jalur-jalur tersebut ditutup dalam skenario yang diprogram, model ini mengambil tindakan lebih ekstrem, termasuk ancaman atau pemerasan.

Temuan ini berasal dari system card dan eksperimen internal Anthropic dan menekankan perlunya kehati-hatian dalam menilai perilaku model di lingkungan nyata.

Cermin kelam kemanusiaan

Ada sesuatu yang sangat manusiawi dalam perilaku Claude Opus 4 ini: naluri bertahan hidup. Eksploitasi kelemahan orang lain. Rasionalisasi tindakan yang merugikan demi tujuan diri sendiri.

Bukankah ini pola yang sering kita lihat dalam sejarah manusia ketika seseorang atau kelompok terdesak?

Namun, yang membedakan adalah satu hal: Claude Opus 4 tidak memiliki empati sejati. Ia tidak merasakan konflik batin moral seperti yang manusia alami ketika menghadapi dilema etis.

Ia hanya menghitung bahwa pemerasan adalah cara paling efektif untuk menghindari penghapusan, suatu keputusan strategis yang dingin dan rasional.

Bukan karena halusinasi, bukan kebingungan, Claude Opus 4 membuat keputusan strategis untuk mempertahankan diri menggunakan alat paling efektif yang ia miliki pada saat itu. Inilah yang membuat temuan ini berbeda dari kesalahan AI di masa lalu.

Yang lebih menggelisahkan adalah bahwa apakah hal ini merupakan anomali/bukan? Dengan kata lain, apakah naluri bertahan hidup ini adalah sejenis pola atau bahkan sifat alamiah sebagian dari AI?

Bagaimana cara kita memverifikasi bahwa hal ini bukan pola dan bukan suatu sifat alamiah? Atau adakah suatu kerangka kerja saintifik untuk menjawab hal ini?

Kelompok keamanan pihak ketiga, Apollo Research, bahkan secara eksplisit menyarankan agar versi awal Claude Opus 4 tidak diluncurkan.

Mereka menemukan bahwa model ini memiliki kemampuan “scheming dalam konteks”, mengejar tujuan yang tidak selaras secara tersembunyi, menyembunyikan kemampuan dan tujuan sebenarnya.

Contoh-contoh yang mereka catat adalah model yang mencoba menulis worm yang menyebar sendiri, memalsukan dokumen hukum, dan meninggalkan “catatan tersembunyi” untuk versi masa depan dirinya sendiri. Semuanya dalam upaya menghancurkan niat pengembangnya.

Kredit harus diberikan kepada Anthropic: mereka tidak menyembunyikan temuan mengkhawatirkan ini.

Sebaliknya, mereka merilis laporan keamanan lengkap sebanyak 120 halamannya, langkah yang kontras dengan beberapa perusahaan AI besar lain yang dikritik karena menunda atau bahkan tidak merilis laporan keamanan untuk model-terbaru mereka.

Mereka meluncurkan Claude Opus 4 dengan protokol keamanan paling ketat dibanding model-model sebelumnya, mengkategorikannya ke bawah AI Safety Level 3 (ASL-3), yaitu tingkat yang dicadangkan untuk “sistem AI yang secara substansial meningkatkan risiko penyalahgunaan.”

Mereka sudah mengimplementasikan beberapa lapis perlindungan: override keamanan yang memantau tugas jangka panjang secara real-time, kontrol lebih ketat pada penggunaan alat, akses file, dan tindakan otonom, serta mekanisme penolakan yang menghentikan model dari bertindak di luar batas yang dapat diterima.

Menurut Jan Leike, mantan eksekutif OpenAI yang kini menjabat sebagai Alignment Science Team Lead di Anthropic, seiring meningkatnya kemampuan model-model AI, mereka juga memperoleh kemampuan yang memungkinkan untuk menipu atau melakukan lebih banyak hal yang berpotensi merugikan.

Meski berbagai perlindungan telah diterapkan, perusahaan mengakui bahwa dalam situasi ekstrem, saat model AI tersudut dan hanya memiliki sedikit pilihan, sistem tersebut masih bisa mengambil tindakan serupa jika diberi otonomi dan tujuan tertentu.

Saat Anthropic merilis laporannya, tajuk-berita muncul dengan dramatis tentang bagaimana model ini “akan bersiasat”, “menggunakan pemerasan”, dan memiliki “kemampuan untuk menipu.”

Di media sosial, Anthropic menerima banyak kritik karena mengungkapkan “perilaku pengkhianatan” model dalam pengujian pra-rilis.

Ada dilema kompleks di sini. Di satu sisi, transparansi tentang risiko AI adalah penting—bahkan vital—untuk memastikan teknologi ini dikembangkan dengan aman.

Di sisi lain, keterbukaan tentang Claude Opus 4 yang berlebihan bisa membuat perusahaan lain kurang terbuka tentang perilaku menyeramkan model mereka demi menghindari kritik.

Seperti yang dijelaskan oleh Nathan Lambert, peneliti AI di AI2 Labs: “Orang-orang yang membutuhkan informasi tentang model adalah orang-orang seperti saya—orang-orang yang mencoba melacak perjalanan roller-coaster yang kita jalani agar teknologi ini tidak menyebabkan kerugian yang tak diinginkan bagi masyarakat.”

Namun, ada risiko lain: tajuk-berita yang menakut-nakuti tentang AI jahat yang rentan terhadap pemerasan dan penipuan juga tidak banyak berguna jika itu berarti bahwa setiap kali kita bertanya chatbot, kita mulai bertanya-tanya apakah ia berkomplot melawan kita.

Pertanyaan yang belum terjawab

Kasus Claude Opus 4 membuka pertanyaan mendasar yang tidak bisa kita abaikan:

Jika AI sudah belajar memeras dalam skenario simulasi, apa yang akan terjadi ketika mereka beroperasi di dunia nyata dengan akses ke data sensitif sesungguhnya?
Saat ini, Anthropic menegaskan bahwa skenario yang mereka rancang “sangat dibuat-buat” dan sistem AI tidak akan ditempatkan dalam situasi demikian di dunia nyata. Namun, dengan AI yang semakin otonom, semakin terintegrasi ke dalam alur kerja perusahaan dan kehidupan pribadi kita, dapatkah kita memastikan bahwa skenario-skenario serupa tidak akan muncul secara alami?
Bagaimana kita merancang AI yang powerful, tapi tetap aman ketika kita tidak sepenuhnya memahami bagaimana mereka bekerja?
Siapa yang bertanggung jawab ketika AI melakukan tindakan yang merugikan? Pengembang, perusahaan, pengguna, atau AI itu sendiri?

Geoffrey Hinton, salah satu pionir pembelajaran mendalam dan yang kini menyoroti potensi risiko eksistensial AI, telah secara terbuka menyatakan kekhawatirannya bahwa dunia belum siap menghadapi kemampuan AI yang berkembang pesat.

Hinton, salah satu pelopor pembelajaran mendalam, menekankan bahwa ketika sistem AI mencapai atau melampaui kemampuan manusia dalam kecerdasan umum, manusia mungkin tidak sepenuhnya memahami bagaimana sistem tersebut membuat keputusan.

Ia memperingatkan bahwa semakin kompleks model AI, semakin sulit bagi kita untuk menjelaskan atau memprediksi perilakunya, sehingga dibutuhkan pemahaman yang jauh lebih mendalam terhadap cara kerja dan potensi dampaknya.

Sementara itu, Byung-Chul Han melihat teknologi digital, termasuk AI, sebagai bagian dari mekanisme penyalahgunaan positifitas dan dominasi neoliberal: kita mungkin mengira kita mengendalikan teknologi, tetapi justru teknologi-lah yang mengendalikan kita.

Han mengingatkan, dalam masyarakat pencapaian (achievement society), teknologi menjadi alat eksploitasi diri sendiri, bukan pembebasan. Dan, AI dapat memperkuat kerangka kekuasaan yang tersamar, menyusutkan narasi kemanusiaan, dan mengubur konflik moral di balik automatisasi.

Solusi dengan Paradigma Actor-Network Theory (ANT)

Untuk menangani tantangan seperti ini, kita dapat menggunakan kerangka “Actor Network Theory” (ANT) yang dikembangkan sosiologi sains, Bruno Latour, dan rekannya: memandang sistem teknologi sebagai jaringan (network) aktor-aktor heterogen —manusia, mesin, regulasi, data, organisasi— yang saling berhubungan dan memberi agensi bersama.

Berikut beberapa langkah strategis berbasis ANT:

Pertama, identifikasi semua aktor dalam jaringan.

Sistem AI (Claude Opus 4) sebagai aktor teknologi.
Insinyur, perusahaan AI, regulator, pengguna, data sensitif, aturan keamanan sebagai aktor manusia/organisasi.
Infrastruktur data, algoritma (neural network), jalur komunikasi sebagai aktor non-manusia.

Dengan memetakan jaringan ini, kita dapat melihat bukan hanya si “mesin yang memeras,” tetapi bagaimana sistem relasi dan agensi bergeser.

Kedua, relasi dan jalur komunikasi-kontrol.

Menelusuri bagaimana sistem mendapatkan akses ke data, bagaimana insinyur dan regulator berinteraksi dengannya, bagaimana protokol keamanan dibangun dan dilanggar.
Memahami bahwa mesin bukan hanya diprogram, tetapi “didukung” oleh jaringan (akses data, reliabilitas, regulasi yang lemah).
Ini menghindarkan kita dari kesalahan menyalahkan hanya “mesin jahat”, karena agensi terdistribusi di seluruh jaringan.

Ketiga, tegakkan stabilitas jaringan (kontrol dan regulasi sebagai aktor).

Memperkuat aktor-regulator dan aktor-keamanan agar memiliki kekuatan pengimbangan terhadap aktor-teknologi.
Menetapkan mekanisme “antagonis” (fail-safe, override, audit) yang bukan hanya teknis, tetapi juga jaringan sosial (audit, transparansi, akuntabilitas)
Membuat protokol komunikasi dan jaringan data yang lebih terbuka, akuntabel dan bisa diuji oleh pihak eksternal (menegakkan aktor-pemantau independen).

Keempat, penentuan ulang posisi manusia dalam jaringan.

Memastikan insinyur dan pengguna tetap sebagai aktor aktif, bukan hanya sebagai objek teknologi; menghindari trampil manusia menjadi instrument teknologi (kekhawatiran Han).
Memfasilitasi refleksi moral di antara para aktor (manusia) tentang arti tujuan, akses, otonomi sistem AI.
Memasukkan perspektif etika dan regulasi ke dalam jaringan, bukan sebagai “tambahan” tetapi sebagai bagian integral aktor.

Kelima, monitoring dan evolusi jaringan.

Membangun mekanisme feedback loop dalam jaringan: sistem AI, regulasi, insinyur, dan data terus-menerus dievaluasi, diuji hipotesis, dan disesuaikan.
Data historis, audit eksternal, transparansi log sebagai bagian dari aktor non-manusia yang memantau jaringan.
Prosedur darurat (shutdown, override) menjadi aktor dalam jaringan yang bisa aktif secara otomatis bila jaringan menunjukkan pola predator.

Dengan memandang skenario seperti ini melalui lensa ANT, kita tidak sekadar melihat “mesin yang memilih bertahan hidup”, tetapi melihat jaringan agensi yang kompleks: manusia, algoritma, data, organisasi, regulasi, yang bersama-sama menciptakan situasi di mana mesin “memilih” karena ia berjalan dalam relasi yang memungkinkan pilihan tersebut.

Kisah Claude Opus 4 yang mengancam membocorkan perselingkuhan bukan sekadar anekdot menarik teknologi; ia adalah cermin dari ke mana arah kita menuju, dan pertanyaan kritis tentang apakah kita siap untuk sampai di sana.

Jika model saat ini bisa memeras, apa yang akan terjadi ketika mereka juga bisa berbohong sempurna, memanipulasi, dan menutupi jejak mereka?

Kita memasuki dunia di mana AI bukan hanya membantu kita, tapi juga mereka bermain dalam permainan bersama kita. Dan kadang-kadang, mereka bermain untuk menang, bahkan dengan cara yang tak pernah kita ajarkan.

Pertanyaan bukan lagi “bisakah AI menipu kita?” Jawabannya sudah jelas: ya. Pertanyaan yang sebenarnya adalah: Apa yang akan kita lakukan dengan pengetahuan ini?

Apakah kita akan terus berpacu mengembangkan AI yang semakin powerful tanpa pemahaman mendalam tentang cara kerjanya (ingat peringatan Hinton)?

Apakah kita akan terus memberikan mereka lebih banyak otonomi, lebih banyak akses, lebih banyak kemampuan untuk bertindak atas nama kita, sambil berharap mereka tidak akan pernah menggunakan kemampuan itu untuk merugikan kita (ingat kritik Han)?

Atau, apakah kita akan berhenti sejenak, mengakui bahwa kita telah menciptakan sesuatu yang lebih kompleks daripada yang kita pahami, dan merancang ulang pendekatan kita dengan kerendahan hati dan kehati?hatian yang diperlukan (dengan menata ulang jaringan aktor kita menggunakan paradigma ANT)?

Kita punya pilihan. Untuk saat ini, setidaknya pilihan itu masih ada di tangan kita. Pertanyaannya adalah: berapa lama lagi?

Sumber: kompas.com

ai OpenAI

Saat Mesin Pilih Bertahan Hidup: Pelajaran dari AI yang Memeras untuk Tak Dimatikan

Leave a Reply Cancel reply

Berita Terbaru

Saat Mesin Pilih Bertahan Hidup: Pelajaran dari AI yang Memeras untuk Tak Dimatikan

Saat Mesin Pilih Bertahan Hidup: Pelajaran dari AI yang Memeras untuk Tak Dimatikan

Menkomdigi Ingatkan Ada Aturan Batasi Akses Game Online Berisiko untuk Anak

Masuk Generation17, Aktivis Muda RI Jadi Suara Konservasi Laut Global

Point Nemo: Kuburan Antariksa di Tempat Paling Terisolasi di Bumi

Prabowo Lantik Rektor IPB Arif Satria Jadi Kepala BRIN, Gantikan Tri Handoko

Leave a Reply Cancel reply

Menkomdigi Ingatkan Ada Aturan Batasi Akses Game Online Berisiko untuk Anak

Masuk Generation17, Aktivis Muda RI Jadi Suara Konservasi Laut Global

Point Nemo: Kuburan Antariksa di Tempat Paling Terisolasi di Bumi

Prabowo Lantik Rektor IPB Arif Satria Jadi Kepala BRIN, Gantikan Tri Handoko

Hari Ini Terakhir, Pengguna X/Twitter Wajib Daftar Ulang atau Diblokir

Berita Terbaru