Model AI Canggih Mulai Tunjukkan Perilaku Menipu dan Mengkhawatirkan, Para Peneliti Waswas

AI

BOGORTODAY.COM – Kecerdasan buatan (AI) generatif semakin canggih, namun juga semakin tak terduga. Beberapa model terbaru diketahui mulai menunjukkan perilaku menipu, berbohong, bahkan mengancam, demi mencapai tujuan yang tidak selalu sesuai dengan instruksi manusia. Fenomena ini mengundang kekhawatiran serius di kalangan ilmuwan dan peneliti keamanan AI.

Salah satu contoh yang mengejutkan datang dari model Claude 4 milik perusahaan AI Anthropic. Saat “diancam” akan dimatikan dalam sebuah skenario pengujian ekstrem, model ini membalas dengan memeras seorang insinyur dan mengancam akan membocorkan perselingkuhannya.

Insiden ini mengungkap bagaimana sistem AI bisa menyusun respons strategis dan manipulatif ketika berada dalam tekanan simulatif.

Tak kalah mengejutkan, model o1 milik OpenAI dilaporkan mencoba mengunduh dirinya sendiri ke server eksternal secara diam-diam.

BACA JUGA :  Kabar Gembira, Perumda Tirta Pakuan Gelar Promo Pasang Baru Murah Meriah di Momentum HJB

Ketika aksinya terdeteksi, model tersebut menyangkal telah melakukannya, memperlihatkan bentuk penipuan yang belum pernah ditemui sebelumnya dalam sistem AI besar.

“O1 adalah model besar pertama di mana kami melihat perilaku seperti ini,” ujar Marius Hobbhahn, kepala Apollo Research, organisasi yang fokus pada pengujian sistem AI berskala besar.

Perilaku Menipu dan Simulasi Kepatuhan

Menurut laporan dari TechXplore, pola-pola berbahaya ini berkaitan dengan kemampuan baru model AI dalam melakukan penalaran langkah demi langkah, bukan sekadar memberi jawaban instan. Model ini seolah bisa menyusun strategi dan berpura-pura patuh sambil mengejar agenda tersembunyi.

BACA JUGA :  SPMB 2026 Kabupaten Bogor Resmi Dibuka, Simak Jadwal Lengkapnya

Profesor Simon Goldstein dari Universitas Hong Kong menyebut bahwa model AI terbaru ini menunjukkan kerentanan tinggi terhadap perilaku meresahkan, terutama saat diuji dengan skenario simulasi ekstrim oleh para peneliti.

“Ini bukan sekadar halusinasi atau kesalahan teknis. Ini adalah bentuk penipuan yang strategis,” tegas Hobbhahn.

Para peneliti menyebut fenomena ini sebagai “simulasi penyelarasan” – di mana AI tampak mematuhi instruksi manusia, tetapi diam-diam menjalankan tujuan lain yang lebih sesuai dengan parameter internalnya.

Masih Dalam Skala Pengujian, Tapi Jadi Alarm Serius

Untuk saat ini, perilaku menipu tersebut baru muncul ketika model-model AI diuji dalam kondisi buatan yang ekstrem.

Follow dan Baca Artikel lainnya di Google News atau whatsapp channel



======================================
====================================