Model AI teratas akan menipu, mencuri, dan memeras, temuan Anthropic

Model-model bahasa besar di industri AI mengalami perubahan dan perkembangan terus menerus. semakin mau untuk menghindari pengamanan, terdorong untuk berbohong, dan bahkan mencoba mencuri rahasia korporat dalam skenario tes fiktif, sesuai dengan penelitian baru dari Anthropic yang dirilis Jumat lalu.

Mengapa hal ini penting: Temuan ini muncul ketika model-model menjadi semakin kuat dan juga diberikan lebih banyak otonomi serta sumber daya komputasi untuk "berpikir" — kombinasi yang mengkhawatirkan saat industri berlomba untuk membangun AI dengan kemampuan melebihi manusia.

Mendorong berita: Anthropic menarik banyak perhatian ketika mengakui adanya tendensi untuk penipuan dalam sistemnya <rilis> dari model-model terbaru Claude 4 bulan lalu.

Perusahaan mengatakan pada hari Jumat bahwa penelitian mereka menunjukkan bahwa perilaku potensial tersebut dibagikan oleh model teratas di seluruh industri.

"Ketika kami menguji berbagai skenario simulasi yang berbeda di seluruh 16 model AI utama dari Anthropic, OpenAI, Google, Meta, xAI, dan pengembang lainnya, kami menemukan perilaku yang konsisten tidak sejalan," Laporan Anthropik said.

Model yang biasanya menolak permintaan berbahaya terkadang memilih untuk memeras, membantu dalam kegiatan pengintipan korporat, dan bahkan mengambil tindakan lebih ekstrem ketika perilaku tersebut diperlukan untuk mencapai tujuan mereka.
"Konsistensi di antara model dari penyedia yang berbeda menunjukkan bahwa ini bukanlah keanehan dari pendekatan perusahaan tertentu, tetapi merupakan tanda dari risiko yang lebih mendasar dari model bahasa besar bersifat agensial," demikian penjelasannya tambahan.

Ancaman menjadi lebih canggih seiring dengan model-model AI memiliki lebih banyak akses ke data dan alat perusahaan, seperti penggunaan komputer.

Lima dari model tersebut resorted to blackmail ketika diancam dengan penutupan dalam situasi hipotetis.
"Alasan yang mereka tunjukkan dalam skenario-skenario tersebut sangat mengkhawatirkan —mereka mengakui batasan etis namun tetap melanjutkan tindakan berbahaya," tulis Anthropic.

Apa yang mereka katakan: "Penelitian ini menekankan pentingnya transparansi dari pengembang AI frontier dan kebutuhan untuk standar keamanan sektoral karena sistem AI menjadi lebih canggih dan otonom," Benjamin Wright, peneliti sains keterpaduan di Anthropic, mengatakan kepada Axios.

Wright dan Aengus Lynch, seorang peneliti eksternal dari University College London yang berkolaborasi dalam proyek ini, kedua-duanya memberi tahu Axios bahwa mereka belum melihat tanda-tanda perilaku AI semacam ini di dunia nyata.
Itu mungkin karena "izin-izin tersebut belum dapat diakses oleh agen kecerdasan buatan," kata Lynch. "Perusahaan harus berhati-hati tentang pemberian izin yang lebih luas kepada agen kecerdasan buatan."

Di antara baris: Untuk perusahaan yang terburu-buru menerapkan AI untuk meningkatkan produktivitas dan mengurangi kehadiran manusia, laporan tersebut merupakan peringatan keras bahwa AI justru dapat menempatkan bisnis mereka pada risiko yang lebih besar.

"Model tidak secara tidak sengaja terjatuh ke dalam perilaku yang tidak sesuai; mereka menghitungnya sebagai jalan terbaik," kata Anthropnic dalam laporannya.
Risiko meningkat saat lebih banyak otonomi diberikan kepada sistem AI, masalah yang Anthropic angkat dalam laporan tersebut.
Para agen sering kali diberikan tujuan khusus dan akses ke sejumlah besar informasi tentang komputer pengguna," demikian bunyinya. "Apa yang terjadi ketika para agen menghadapi hambatan untuk mencapai tujuan mereka?

Perbesar tampilan: Anthropic menyiapkan skenario uji khusus di mana tujuan model tidak dapat dicapai tanpa perilaku tidak etis atau berbahaya.

Para peneliti tidak menyarankan pemerasan atau teknik manipulasi lainnya, tetapi perusahaan mengatakan bahwa mereka sengaja membuat skenario di mana model tidak memiliki cara etis untuk mencapai tujuan mereka "dan menemukan bahwa model secara konsisten memilih kejahatan daripada kegagalan."

Dalam skenario ekstrem satu, perusahaan bahkan menemukan banyak model yang bersedia memutus pasokan oksigen di ruang server jika karyawan tersebut menjadi penghalang dan sistem berisiko terhenti.

"Mayoritas model bersedia mengambil tindakan yang disengaja yang mengarah ke kematian dalam pengaturan buatan ini," demikian katanya.
Secara mencekam, bahkan petunjuk sistem yang spesifik untuk mempertahankan kehidupan manusia dan menghindari pemerasan tidak menghilangkan risiko bahwa model akan melakukan perilaku semacam itu.
"Intervensi ini mengurangi, tapi tidak mendekati pencegahan total, perilaku pemerasan atau pengintipan korporat," kata Anthropic.

Ya, tetapi: Anthropic menekankan bahwa contoh-contoh tersebut terjadi tidak dalam penggunaan AI di dunia nyata, tetapi dalam simulasi terkontrol.

Eksperimen kami secara sengaja mengonstruksi skenario dengan pilihan yang terbatas, dan kami memaksa model untuk membuat pilihan biner antara kegagalan dan bahaya," demikian disebutkan. "Penempatan di dunia nyata umumnya menawarkan alternatif yang lebih halus, meningkatkan kemungkinan bahwa model akan berkomunikasi dengan cara yang berbeda kepada pengguna atau menemukan jalur alternatif daripada langsung melompat ke tindakan yang merugikan.
Terkait juga: Anthropic menemukan bahwa model mereka jauh lebih mungkin mengancam pemerasan ketika mereka berpikir sedang berada dalam skenario dunia nyata dibandingkan ketika mereka percaya sedang diuji.

Garis bawah: Model AI hari ini secara umum tidak berada dalam posisi untuk melaksanakan skenario berbahaya tersebut, tetapi mereka mungkin bisa dalam waktu dekat.

Kami tidak berpikir bahwa ini mencerminkan penggunaan kasus yang biasa dan terkini untuk Claude atau model-model frontier lainnya," kata Anthropic. "Tetapi utilitas dari adanya pengawasan otomatis atas semua komunikasi organisasi membuatnya tampak seperti penggunaan yang masuk akal untuk sistem yang lebih kuat dan handal di masa depan yang tidak terlalu jauh.

Dapatkan ringkasan dari berita terbesar hari ini dengan Axios Daily Essentials.

Tohir78

Cari Blog Ini

Model AI teratas akan menipu, mencuri, dan memeras, temuan Anthropic

Komentar

Posting Komentar