Havard และมหาวิทยาลัยมิชิแกนไม่ใช่คนแรกที่พยายามทำความเข้าใจความสามารถของโมเดล AI โดยนักวิจัยจาก Anthropic เปิดเผยบทความเรื่อง 'การเรียนรู้พจนานุกรม' บทความนี้กล่าวถึงการเชื่อมโยงในภาษาของ Claude กับแนวคิดเฉพาะที่เข้าใจ แม้ว่างานวิจัยเหล่านี้ส่วนใหญ่จะมีมุมมองที่แตกต่างกัน แต่หลักๆ แล้วคือการทำความเข้าใจโมเดล AI Anthropic เปิดเผยว่าพบคุณลักษณะต่างๆ ที่อาจเชื่อมโยงกับแนวคิดที่สามารถตีความได้ต่างๆ “เราพบคุณลักษณะนับล้านที่ดูเหมือนจะสอดคล้องกับแนวคิดที่สามารถตีความได้ ตั้งแต่วัตถุที่เป็นรูปธรรม เช่น ผู้คน ประเทศ และอาคารที่มีชื่อเสียง ไปจนถึง trac แนวคิด เช่น อารมณ์ สไตล์การเขียน และขั้นตอนการใช้เหตุผล” การวิจัยเปิดเผย ในระหว่างการวิจัย นักวิจัยได้ทำการทดลองหลายครั้งโดยใช้แบบจำลองการแพร่กระจาย ซึ่งเป็นหนึ่งในสถาปัตยกรรมที่ได้รับความนิยมมากที่สุดสำหรับ AI ในระหว่างการทดลอง พวกเขาตระหนักว่าแบบจำลองมีวิธีที่แตกต่างกันในการจัดการกับแนวคิดพื้นฐาน รูปแบบมีความสอดคล้องกันเนื่องจากโมเดล AI แสดงความสามารถใหม่ในระยะต่างๆ และจุดเปลี่ยนที่ชัดเจนที่ส่งสัญญาณเมื่อได้รับความสามารถใหม่ ในระหว่างการฝึกอบรม แบบจำลองแสดงให้เห็นว่าพวกเขาเชี่ยวชาญแนวคิดประมาณ 2,000 ขั้นตอนเร็วกว่าที่การทดสอบมาตรฐานจะตรวจพบ แนวคิด S tron g ปรากฏประมาณ 6,000 ขั้น และขั้นที่อ่อนแอกว่าปรากฏประมาณ 20,000 ขั้น หลังจากที่ปรับสัญญาณแนวคิดแล้ว พวกเขาค้นพบความสัมพันธ์โดยตรงกับความเร็วในการเรียนรู้ นักวิจัยใช้วิธีการกระตุ้นทางเลือกเพื่อเปิดเผยความสามารถที่ซ่อนอยู่ก่อนที่จะแสดงในการทดสอบมาตรฐาน ลักษณะการซ่อนเร้นที่เกิดขึ้นอย่างแพร่หลายมีผลกระทบต่อการประเมินและความปลอดภัยของ AI ตัวอย่างเช่น การวัดประสิทธิภาพแบบดั้งเดิมอาจพลาดความสามารถบางอย่างของโมเดล AI ดังนั้นจึงขาดทั้งประโยชน์และความสามารถที่เกี่ยวข้อง ในระหว่างการวิจัย ทีมงานได้ค้นพบวิธีการบางอย่างในการเข้าถึงความสามารถที่ซ่อนอยู่ของโมเดล AI การวิจัยนี้เรียกว่าวิธีการแทรกแซงแบบแฝงเชิงเส้นและการกระตุ้นมากเกินไป เนื่องจากนักวิจัยได้สร้างแบบจำลองแสดงพฤติกรรมที่ซับซ้อนก่อนที่จะแสดงในการทดสอบมาตรฐาน นักวิจัยยังค้นพบว่าโมเดล AI จัดการคุณสมบัติที่ซับซ้อนบางอย่างก่อนที่จะแสดงผ่านการแจ้งเตือนมาตรฐาน ตัวอย่างเช่น โมเดลอาจได้รับแจ้งให้สร้าง 'ผู้หญิงยิ้ม' หรือ 'ผู้ชายสวมหมวก' ได้สำเร็จ ก่อนที่จะถูกขอให้รวมเข้าด้วยกัน อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่าพวกเขาได้เรียนรู้ที่จะรวมมันเข้าด้วยกันตั้งแต่เนิ่นๆ แต่จะไม่สามารถแสดงออกมาผ่านคำแนะนำแบบเดิมๆ ได้ โมเดลที่แสดงความสามารถอาจกล่าวได้ว่าเป็นโมเดลที่โหดเหี้ยม ซึ่งเป็นสถานการณ์ที่โมเดลแสดงประสิทธิภาพการทดสอบที่สมบูรณ์แบบหลังจากการฝึกอบรมที่ยาวนาน อย่างไรก็ตาม นักวิจัยกล่าวว่ามีความแตกต่างที่สำคัญระหว่างทั้งสองอย่าง แม้ว่าการบ่นจะเกิดขึ้นหลังจากการฝึกอบรมหลายครั้งและเกี่ยวข้องกับการปรับปรุงการกระจายชุดข้อมูลเดียวกันหลายชุด แต่การวิจัยแสดงให้เห็นว่าความสามารถเหล่านี้เกิดขึ้นระหว่างการเรียนรู้เชิงรุก นักวิจัยตั้งข้อสังเกตว่าแบบจำลองเหล่านี้พบวิธีใหม่ในการจัดการแนวคิดผ่านการเปลี่ยนแปลงในระยะต่างๆ มากกว่าการปรับปรุงการเป็นตัวแทนอย่างค่อยเป็นค่อยไปใน grokking จากการวิจัยพบว่าโมเดล AI รู้แนวคิดเหล่านี้ แต่ไม่สามารถแสดงออกมาได้ คล้ายกับคนดูและเข้าใจหนังต่างประเทศแต่พูดภาษาไม่ได้ นี่แสดงให้เห็นว่าโมเดลส่วนใหญ่มีความสามารถมากกว่าที่แสดง และยังแสดงให้เห็นถึงความยากลำบากในการทำความเข้าใจและการควบคุมความสามารถด้วย จากศูนย์ถึง Web3 Pro: แผนเปิดตัวอาชีพ 90 วันของคุณ การวิจัยแสดงให้เห็นว่าแบบจำลอง AI อยู่ภายในแนวคิด
นักวิจัยเปิดเผยวิธีการเข้าถึงความสามารถที่ซ่อนอยู่