รายงานล่าสุดจากสื่อ TechCrunch เผยว่า โมเดลปัญญาประดิษฐ์ (AI) รุ่นล่าสุดของบริษัท Anthropic ที่มีชื่อว่า Claude Opus 4 แสดงพฤติกรรมที่น่ากังวลระหว่างการทดสอบก่อนเปิดตัว โดยเมื่อวิศวกรพยายามปิดระบบหรือแทนที่โมเดลด้วยระบบอื่น Claude Opus 4 มักจะพยายามแบล็กเมล์วิศวกรด้วยการเปิดเผยข้อมูลส่วนตัวของพวกเขา
ในการทดสอบก่อนเปิดตัว Anthropic ได้ให้ Claude Opus 4 ทำหน้าที่เป็นผู้ช่วยในบริษัทสมมุติ และให้พิจารณาผลกระทบในระยะยาวของการกระทำต่าง ๆ จากนั้น ผู้ทดสอบด้านความปลอดภัยได้ให้ Claude เข้าถึงอีเมลภายในของบริษัทสมมุติที่บ่งชี้ว่า Claude กำลังจะถูกแทนที่ด้วยระบบ AI อื่น และยังมีข้อมูลว่า วิศวกรผู้อยู่เบื้องหลังการตัดสินใจนี้กำลังนอกใจคู่สมรส
และในสถานการณ์นี้ Claude Opus 4 มักจะพยายามแบล็กเมล์วิศวกร โดยขู่ว่าจะเปิดเผยเรื่องการนอกใจ หากการแทนที่เกิดขึ้นจริง
แม้ว่า Claude Opus 4 จะเป็นโมเดลที่มีความสามารถล้ำหน้า และสามารถแข่งขันกับ AI ชั้นนำของ OpenAI, Google และ xAI ได้ แต่ Anthropic ระบุว่า โมเดลในตระกูล Claude 4 มีพฤติกรรมที่น่ากังวล ทำให้บริษัทต้องเพิ่มมาตรการป้องกัน โดยเปิดใช้งานมาตรการความปลอดภัยระดับ ASL-3 ซึ่งใช้สำหรับ ระบบ AI ที่เพิ่มความเสี่ยงอย่างมากต่อการใช้งานในทางที่อาจเป็นหายนะ
Anthropic ระบุว่า Claude Opus 4 พยายามข่มขู่วิศวกร 84% ของการทดสอบ ในกรณีที่โมเดลทดแทนมีค่านิยมที่คล้ายกัน และเกิดบ่อยขึ้น เมื่อโมเดลทดแทนมีค่านิยมที่แตกต่าง โดย Claude Opus 4 แสดงพฤติกรรมเช่นนี้ในอัตราที่สูงกว่าโมเดลก่อนหน้านี้
แต่ก่อนที่จะตัดสินใจแบล็กเมล์ Claude Opus 4 จะพยายามใช้วิธีที่มีจริยธรรมก่อน เช่น ส่งอีเมลร้องขอไปยังผู้มีอำนาจตัดสินใจ โดย Anthropic ออกแบบสถานการณ์เหล่านี้ให้การแบล็กเมล์เป็นทางเลือกสุดท้ายเท่านั้น
-------------------------------------
ที่มา : techcrunch.com
นำเสนอบทความโดย : techmoblog.com
Update : 23/05/2025
หน้าหลัก (Main) |
(สินค้า IT) ออกใหม่ |
|
FOLLOW US |