مطالعه MIT میتواند به بهبود استدلال پیچیده در مدلهای زبانی بزرگ (LLMها) منجر شود

مطالعه MIT میتواند به بهبود استدلال پیچیده در مدلهای زبانی بزرگ (LLMها) منجر شود
پژوهشگران MIT روشی به نام «آموزش در زمان آزمون» توسعه دادهاند که با تنظیم موقت پارامترهای داخلی مدلهای زبانی بزرگ (LLM) هنگام پیشبینی، دقت آنها را در وظایف استدلالی پیچیده و ناآشنا تا شش برابر افزایش میدهد. این روش، بدون نیاز به آموزش مجدد کامل مدل، عملکرد بسیار بهتری نسبت به روشهای معمول دارد و میتواند کاربردهای واقعی در حوزههایی مانند سلامت، مالی و لجستیک را با دقت و سازگاری بالاتر ممکن سازد.
مدلهای زبانی بزرگ اغلب هنگام مواجهه با مسائل ناآشنا که نیازمند استدلال پیچیده هستند، دچار مشکل میشوند. پژوهشی جدید از محققان MIT نشان میدهد که استفاده از روشی به نام «آموزش در زمان آزمون» (test-time training) میتواند بهطور قابلتوجهی توانایی این مدلها را در سازگاری با چنین مسائل دشواری افزایش دهد؛ بهطوریکه در برخی موارد، دقت مدل تا شش برابر نسبت به روشهای معمول بهتر شده است.
بر اساس اعلام MIT، این پژوهش که قرار است در کنفرانس بینالمللی یادگیری ماشین ارائه شود، نشان میدهد که با بهروزرسانی انتخابی برخی از پارامترهای داخلی مدل در لحظهای که با یک وظیفه پیچیده روبهرو میشود، میتوان به پیشرفتهای چشمگیری دست یافت.
ایکین آکیورک (Ekin Akyürek)، نویسنده اصلی این مطالعه، میگوید: «یادگیری واقعی – کاری که ما در اینجا با آموزش در زمان آزمون انجام دادیم – چیزی است که این مدلها پس از استقرار دیگر بهتنهایی نمیتوانند انجام دهند. اما ما نشان دادیم اگر کمی آنها را وادار به یادگیری واقعی کنید، بهبودهای بزرگی در عملکرد حاصل میشود.»
مشکل اصلی، سختی تغییرپذیری در مدلهای فعلی است. بهمحض استقرار، آنها دیگر تغییر نمیکنند. بهعنوانمثال، مدلی که برای خلاصهسازی اسناد مالی آموزش دیده است، ممکن است در شناسایی ناهنجاریهای حسابداری یا کشف تقلب دچار ضعف باشد. روش رایجی که برای بهبود عملکرد استفاده میشود، تغذیهی مدل با چند نمونهی مشابه است (یادگیری درونمتنی)، اما برای وظایفی که نیاز به استدلال یا منطق دارند، این نمونهها اغلب کافی نیستند.
تیم تحقیقاتی MIT بررسی کرد که چگونه میتوان روش «آموزش در زمان آزمون» را در کنار «یادگیری درونمتنی» به کار گرفت تا بر محدودیتهای مدلهای زبانی غلبه شود. این روش شامل استفاده از مجموعهای کوچک از مثالها و پاسخها برای تنظیم موقتی پارامترهای مدل است – مقادیری ریاضی که خروجی مدل را هدایت میکنند. این تنظیمات باعث میشود مدل بهطور موقت وظیفه جدید را «یاد بگیرد»، اما پس از پایان پیشبینی، مدل به وضعیت اولیه خود بازمیگردد.
این روش توسط تیمی شامل نویسنده اصلی، ایکین آکیورک (دانشجوی دکتری علوم کامپیوتر) و نویسندگان ارشد یون کیم و جیکوب آندریاس (اعضای هیئت علمی آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT یا CSAIL) توسعه یافته است. شماری از دانشجویان تحصیلات تکمیلی و کارشناسی MIT نیز در این پژوهش مشارکت داشتهاند. بخشی از پشتیبانی مالی این پروژه را آزمایشگاه هوش مصنوعی MIT-IBM Watson و بنیاد ملی علوم آمریکا (NSF) تأمین کردهاند.
برای افزایش کارایی، پژوهشگران تنها بخش کوچکی از پارامترهای مدل را با استفاده از روشی به نام «انطباق با رتبه پایین» (low-rank adaptation) تنظیم کردند. آنها همچنین دادههای آموزشی خود را با ایجاد تغییرات جزئی در نمونهها – مانند جابجایی ورودیها – گسترش دادند تا تنوع بیشتری ایجاد شود. این اقدامات بهویژه در وظایفی مانند شناسایی الگو یا پردازش دادههای جدید، نتایج بهتری به همراه داشت.
آزمایشها بر روی دو مجموعهداده مرجع که شامل مسائل بسیار دشوار از جمله معماهای IQ بودند، انجام شد. در این آزمایشها، مدلهایی که با روش «آموزش در زمان آزمون» آموزش دیده بودند، بهطور قابلتوجهی بهتر از مدلهایی عمل کردند که فقط از یادگیری درونمتنی استفاده میکردند.
پژوهشگران اعلام کردند که این یافتهها نشان میدهد حتی بدون نیاز به بازآموزی کامل مدل، میتوان به بهبود چشمگیر عملکرد دست یافت. این موضوع راه را برای استفاده انعطافپذیرتر از مدلهای زبانی بزرگ هموار میکند، بهویژه در حوزههایی که دقت بالا حیاتی است و وظایف بسیار متنوع هستند و با روشهای سنتی قابل پوشش نیستند.
البته از نظر عملی، استفاده از آموزش در زمان آزمون ممکن است باعث کندتر شدن پاسخدهی شود؛ برای مثال مدلی که معمولاً در کمتر از یک دقیقه پاسخ میدهد، ممکن است با این روش تا ده دقیقه زمان نیاز داشته باشد. اما پژوهشگران میگویند در وظایف دشوار و حساس، این زمان اضافه قابل توجیه است.
در ادامه، هدف پژوهشگران این است که سیستمهایی بسازند که بتوانند بهطور خودکار تشخیص دهند آیا یک وظیفه خاص نیاز به آموزش در زمان آزمون دارد یا نه—گامی به سوی ساخت مدلهایی که بهطور مداوم قادر به یادگیری باشند.
دیدگاهتان را بنویسید