ปัญญาประดิษฐ์ สมองกลประมวลผลภาษาอย่างไร

นักประสาทวิทยาพบว่าการทำงานภายในของแบบจำลองการทำนายคำถัดไปคล้ายกับของศูนย์ประมวลผลภาษาในสมอง

ในช่วงไม่กี่ปีที่ผ่านมา แบบจำลองทางภาษาของปัญญาประดิษฐ์ได้กลายเป็นสิ่งที่ดีมากในบางงาน ที่โดดเด่นที่สุดคือ พวกเขาเก่งในการทำนายคำถัดไปในสตริงข้อความ เทคโนโลยีนี้ช่วยให้เสิร์ชเอ็นจิ้นและแอพส่งข้อความทำนายคำต่อไปที่คุณจะพิมพ์

โมเดลภาษาทำนายผลรุ่นล่าสุดยังดูเหมือนจะเรียนรู้บางอย่างเกี่ยวกับความหมายพื้นฐานของภาษา โมเดลเหล่านี้ไม่เพียงแต่สามารถคาดเดาคำที่จะมาถัดไปเท่านั้น แต่ยังทำงานที่ดูเหมือนต้องใช้ความเข้าใจอย่างแท้จริงในระดับหนึ่ง เช่น การตอบคำถาม การสรุปเอกสาร และการจบเรื่องราว

โมเดลดังกล่าวได้รับการออกแบบเพื่อเพิ่มประสิทธิภาพการทำงานเฉพาะของการคาดเดาข้อความ โดยไม่ต้องพยายามเลียนแบบสิ่งใดเกี่ยวกับวิธีที่สมองของมนุษย์ทำงานนี้หรือเข้าใจภาษา แต่ผลการศึกษาใหม่จากนักประสาทวิทยาของ MIT ชี้ให้เห็นถึงหน้าที่พื้นฐานของแบบจำลองเหล่านี้คล้ายคลึงกับการทำงานของศูนย์ประมวลผลภาษาในสมองของมนุษย์

โมเดลคอมพิวเตอร์ที่ทำงานได้ดีกับงานภาษาประเภทอื่นไม่ได้แสดงความคล้ายคลึงกันกับสมองของมนุษย์ ซึ่งเป็นหลักฐานว่าสมองของมนุษย์อาจใช้การคาดคะเนคำถัดไปเพื่อขับเคลื่อนการประมวลผลภาษา

Nancy Kanwisher ศาสตราจารย์ด้านประสาทวิทยาแห่งความรู้ความเข้าใจของ Walter A. Rosenblith สมาชิกของสถาบัน McGovern Institute for Brain Research and Center for Brains ของ MIT กล่าวว่า “แบบจำลองนั้นสามารถทำนายคำถัดไปได้ดีกว่ามากเท่าไร ก็ยิ่งเหมาะกับสมองของมนุษย์มากเท่านั้น Minds and Machines (CBMM) และผู้เขียนการศึกษาใหม่ “น่าทึ่งมากที่แบบจำลองเข้ากันได้ดี และมันแสดงให้เห็นโดยอ้อมว่าบางทีสิ่งที่ระบบภาษามนุษย์กำลังทำอยู่คือการทำนายว่าจะเกิดอะไรขึ้นต่อไป”

Joshua Tenenbaum ศาสตราจารย์ด้านวิทยาศาสตร์การคิดเชิงคำนวณที่ MIT และเป็นสมาชิกของ CBMM และห้องปฏิบัติการปัญญาประดิษฐ์ของ MIT (CSAIL); และ Evelina Fedorenko, เฟรเดอริเอและแคโรลมิดเดิลตันเจพัฒนาอาชีพรองศาสตราจารย์ประสาทและเป็นสมาชิกของสถาบัน McGovern เป็นนักเขียนอาวุโสของการศึกษาซึ่งจะปรากฏในสัปดาห์นี้ในการดำเนินการของสถาบันวิทยาศาสตร์แห่งชาติ Martin Schrimpf นักศึกษาระดับบัณฑิตศึกษาของ MIT ซึ่งทำงานใน CBMM เป็นผู้เขียนบทความคนแรก

ทำนายฝัน

โมเดลการคาดคะเนคำถัดไปที่มีประสิทธิภาพสูงใหม่นี้อยู่ในกลุ่มของแบบจำลองที่เรียกว่าโครงข่ายประสาทเทียมระดับลึก เครือข่ายเหล่านี้ประกอบด้วย “Cloud Server” เชิงคำนวณที่สร้างการเชื่อมต่อที่มีความแข็งแกร่งต่างกัน และเลเยอร์ที่ส่งผ่านข้อมูลระหว่างกันด้วยวิธีที่กำหนด

ในช่วงทศวรรษที่ผ่านมา นักวิทยาศาสตร์ได้ใช้โครงข่ายประสาทเทียมระดับลึกเพื่อสร้างแบบจำลองการมองเห็นที่สามารถจดจำวัตถุต่างๆ ได้เช่นเดียวกับสมองของไพรเมต การวิจัยที่ MIT ยังแสดงให้เห็นด้วยว่าฟังก์ชันพื้นฐานของแบบจำลองการรู้จำวัตถุที่มองเห็นนั้นตรงกับการจัดโครงสร้างเยื่อหุ้มสมองของไพรเมต แม้ว่าแบบจำลองคอมพิวเตอร์เหล่านั้นไม่ได้ออกแบบมาโดยเฉพาะเพื่อเลียนแบบสมองก็ตาม

ในการศึกษาครั้งใหม่ ทีม MIT ใช้แนวทางที่คล้ายกันเพื่อเปรียบเทียบศูนย์ประมวลผลภาษาในสมองของมนุษย์กับแบบจำลองการประมวลผลภาษา นักวิจัยวิเคราะห์แบบจำลองภาษาต่างๆ 43 แบบ รวมทั้งแบบจำลองหลายแบบที่ได้รับการปรับให้เหมาะสมสำหรับการคาดเดาคำถัดไป ซึ่งรวมถึงแบบจำลองที่เรียกว่า GPT-3 (Generative Pre-trained Transformer 3) ซึ่งเมื่อได้รับแจ้ง สามารถสร้างข้อความที่คล้ายกับสิ่งที่มนุษย์สร้างขึ้นได้ โมเดลอื่นๆ ได้รับการออกแบบเพื่อใช้งานภาษาต่างๆ เช่น การเติมช่องว่างในประโยค

นักวิจัยได้วัดกิจกรรมของโหนดที่ประกอบขึ้นเป็นเครือข่ายเมื่อแต่ละโมเดลนำเสนอด้วยสตริงคำ จากนั้นจึงเปรียบเทียบรูปแบบเหล่านี้กับกิจกรรมในสมองของมนุษย์ โดยวัดจากอาสาสมัครที่ทำงานภาษา 3 อย่าง ได้แก่ การฟังเรื่องราว การอ่านประโยคทีละประโยค และการอ่านประโยคที่มีการเปิดเผยคำทีละคำ ชุดข้อมูลของมนุษย์เหล่านี้รวมถึงข้อมูลฟังก์ชันแม่เหล็กเรโซแนนซ์ (fMRI) และการวัดคลื่นไฟฟ้าหัวใจในกะโหลกศีรษะในผู้ที่ได้รับการผ่าตัดสมองสำหรับโรคลมชัก

พวกเขาพบว่าแบบจำลองการทำนายคำถัดไปที่ทำงานได้ดีที่สุดมีรูปแบบกิจกรรมที่คล้ายกับที่เห็นในสมองของมนุษย์อย่างใกล้ชิด กิจกรรมในรูปแบบเดียวกันนั้นมีความสัมพันธ์อย่างมากกับการวัดพฤติกรรมของมนุษย์ เช่น ความเร็วในการอ่านข้อความ

“เราพบว่าแบบจำลองที่ทำนายการตอบสนองของระบบประสาทได้ดีนั้นมีแนวโน้มที่จะทำนายการตอบสนองของพฤติกรรมมนุษย์ได้ดีที่สุดในรูปแบบของเวลาในการอ่าน จากนั้นทั้งสองสิ่งนี้จะอธิบายได้ด้วยประสิทธิภาพของแบบจำลองในการทำนายคำถัดไป สามเหลี่ยมนี้เชื่อมโยงทุกสิ่งจริงๆ ด้วยกัน” Schrimpf กล่าว

ตัวเปลี่ยนเกม

คุณลักษณะการคำนวณที่สำคัญอย่างหนึ่งของแบบจำลองการคาดการณ์ เช่น GPT-3 คือองค์ประกอบที่เรียกว่าหม้อแปลงคาดการณ์ทางเดียวแบบไปข้างหน้า หม้อแปลงชนิดนี้สามารถทำนายสิ่งที่กำลังจะเกิดขึ้นต่อไป โดยอิงจากลำดับก่อนหน้า คุณลักษณะที่สำคัญของหม้อแปลงนี้คือมันสามารถคาดการณ์ตามบริบทก่อนหน้าที่ยาวนานมาก (หลายร้อยคำ) ไม่ใช่แค่สองสามคำสุดท้าย

นักวิทยาศาสตร์ไม่พบวงจรสมองหรือกลไกการเรียนรู้ใดๆ ที่สอดคล้องกับการประมวลผลประเภทนี้ Tenenbaum กล่าว อย่างไรก็ตาม การค้นพบใหม่นี้สอดคล้องกับสมมติฐานที่เคยเสนอว่าการทำนายเป็นหนึ่งในหน้าที่หลักในการประมวลผลภาษา เขากล่าว

“ความท้าทายประการหนึ่งของการประมวลผลภาษาคือแง่มุมตามเวลาจริง” เขากล่าว “ภาษาเข้ามา และคุณต้องตามให้ทันและทำความเข้าใจได้แบบเรียลไทม์”

ขณะนี้นักวิจัยวางแผนที่จะสร้างรูปแบบต่างๆ ของรูปแบบการประมวลผลภาษาเหล่านี้เพื่อดูว่าการเปลี่ยนแปลงเล็กน้อยในสถาปัตยกรรมส่งผลต่อประสิทธิภาพการทำงานและความสามารถในการปรับข้อมูลประสาทของมนุษย์อย่างไร

“สำหรับฉัน ผลลัพธ์นี้เป็นตัวเปลี่ยนเกม” Fedorenko กล่าว “การเปลี่ยนแปลงโครงการวิจัยของฉันโดยสิ้นเชิง เพราะฉันไม่เคยคาดการณ์มาก่อนว่าในช่วงชีวิตของฉัน เราจะใช้แบบจำลองการคำนวณที่ชัดเจนซึ่งจับภาพเกี่ยวกับสมองได้เพียงพอ เพื่อให้เราสามารถใช้ประโยชน์จากมันได้จริงในการทำความเข้าใจว่าสมองทำงานอย่างไร”

นักวิจัยยังวางแผนที่จะพยายามรวมโมเดลภาษาที่มีประสิทธิภาพสูงเหล่านี้กับคอมพิวเตอร์บางรุ่น ซึ่งแล็บของ Tenenbaum ได้พัฒนาขึ้นมาก่อนหน้านี้ ซึ่งสามารถทำงานประเภทอื่นได้ เช่น การสร้างการรับรู้ถึงโลกทางกายภาพ

“ถ้าเราสามารถเข้าใจว่าโมเดลภาษาเหล่านี้ทำอะไรได้บ้าง และพวกเขาสามารถเชื่อมต่อกับแบบจำลองที่ทำสิ่งต่างๆ ที่คล้ายกับการรับรู้และการคิดได้อย่างไร นั่นจะทำให้เรามีโมเดลเชิงบูรณาการมากขึ้นว่าสิ่งต่างๆ ทำงานอย่างไรในสมอง” Tenenbaum กล่าว . “สิ่งนี้สามารถพาเราไปสู่โมเดลปัญญาประดิษฐ์ที่ดีขึ้น รวมทั้งทำให้เรามีแบบจำลองที่ดีขึ้นว่าสมองทำงานอย่างไรและสติปัญญาทั่วไปเกิดขึ้นได้อย่างไร มากกว่าที่เคยมีมา”

การวิจัยได้รับทุนจาก Takeda Fellowship; สมาคมช่างทำรองเท้า MIT; บริษัทวิจัยเซมิคอนดักเตอร์; MIT Media Lab Consortia; ที่ MIT Singleton Fellowship; สมาคมบัณฑิตวิทยาลัยประธานาธิบดี MIT; เพื่อนของสถาบัน McGovern Fellowship; MIT Center for Brains, Minds and Machines ผ่านมูลนิธิวิทยาศาสตร์แห่งชาติ สถาบันสุขภาพแห่งชาติ แผนกสมองและวิทยาศาสตร์ของ MIT; และสถาบันแมคโกเวิร์น

ผู้เขียนบทความคนอื่นๆ ได้แก่ Idan Blank PhD ’16 และนักศึกษาระดับบัณฑิตศึกษา Greta Tuckute, Carina Kauf และ Eghbal Hosseini

อ้างอิงจาก : https://www.sciencedaily.com/releases/2021/10/211025172047.htm