محققان روش جدیدی برای “دیدن” هوش مصنوعی معرفی کردند
محققان روش جدیدی برای "دیدن" هوش مصنوعی معرفی کردند
پژوهشگران در دانشکده مهندسی پنسیلوانیا (Penn Engineering) و مؤسسه هوش مصنوعی آلن (AI2) ابزار جدیدی به نام CoSyn معرفی کردهاند؛ یک سامانه تولید تصویر مصنوعی که با هدف آموزش مدلهای متنباز هوش مصنوعی طراحی شده است تا بتوانند دادههای بصری پیچیده مانند نمودارها، دیاگرامها و برچسبها را تفسیر کنند.
با استفاده از CoSyn، پژوهشگران مجموعهدادهای به نام CoSyn-400K ایجاد کردهاند که شامل بیش از ۴۰۰ هزار تصویر و ۲.۷ میلیون دستورالعمل است. این مجموعهداده باعث شده تا مدلهای متنباز عملکرد بهتری نسبت به سامانههای اختصاصی مانند GPT-4V و Gemini 1.5 Flash در ارزیابیهای کلیدی از خود نشان دهند.
هدف این تیم از تولید دادههای مصنوعی با استفاده از مدلهای متنباز و انتشار عمومی همه ابزارها، کمک به همسطح شدن مدلهای متنباز با سامانههای بسته است؛ اقدامی که میتواند به گسترش استفاده از هوش مصنوعیهایی منجر شود که توانایی درک و تعامل با اطلاعات بصری دنیای واقعی را دارند.
در رقابت برای توسعهی هوش مصنوعیای که بتواند تصاویر پیچیدهای مانند پیشبینیهای مالی، دیاگرامهای پزشکی و برچسبهای تغذیهای را درک کند — که برای عملکرد مستقل هوش مصنوعی در موقعیتهای روزمره ضروری هستند — سیستمهای بستهای مانند ChatGPT و Claude پیشتاز میدان هستند. با این حال، هیچکس بهجز سازندگان این مدلها نمیداند این سامانهها چگونه آموزش دیدهاند یا از چه دادههایی استفاده کردهاند، و همین موضوع باعث شده مدلهای متنباز در تلاش برای جبران این فاصله باشند.
اکنون، پژوهشگران در دانشکده مهندسی دانشگاه پنسیلوانیا (Penn Engineering) و مؤسسه هوش مصنوعی آلن (Ai2) روش نوینی برای آموزش مدلهای متنباز ابداع کردهاند: استفاده از هوش مصنوعی برای تولید تصاویر علمی، نمودارها و جداولی که به سایر سیستمهای هوش مصنوعی آموزش میدهند چگونه اطلاعات بصری پیچیده را تفسیر کنند.
این ابزار که CoSyn (مخفف Code-Guided Synthesis) نام دارد، از توانایی مدلهای متنباز در برنامهنویسی استفاده میکند تا تصاویر مملو از متن را تولید کرده و سؤالات و پاسخهای مرتبط با آنها را ایجاد کند. به این ترتیب، دادههایی فراهم میشود که به سایر سیستمهای هوش مصنوعی کمک میکند تا نحوهی «دیدن» و درک تصاویر علمی را بیاموزند.
همانطور که پژوهشگران در مقالهی ارائهشده برای کنفرانس ACL 2025 — یکی از معتبرترین رویدادهای هوش مصنوعی در جهان — توضیح دادهاند، مدلهای آموزشدیده با CoSyn عملکردی برابر یا حتی بهتر از رقبای اختصاصی خود دارند. یویو یانگ (Yue Yang)، نویسندهی مشترک اول مقاله و پژوهشگر مؤسسه PRIOR (گروه پژوهشی استدلال و تعامل ادراکی در Ai2) میگوید:
«این مثل آن است که از یک دانشآموز که در نوشتن مهارت دارد، بخواهیم فقط با توصیف آنچه باید کشیده شود، به دیگری یاد بدهد چگونه طراحی کند. ما در واقع داریم توانایی مدلهای متنباز در پردازش متن را به دنیای بصری منتقل میکنیم.»
تصاویر مصنوعی، نتایج واقعی
مجموعه دادهای که از این پروژه به دست آمده، با نام CoSyn-400K، شامل بیش از ۴۰۰٬۰۰۰ تصویر مصنوعی و ۲٫۷ میلیون مجموعه دستورالعمل مرتبط است که در دستههایی متنوع مانند نمودارهای علمی، ساختارهای شیمیایی و اسکرینشاتهای رابط کاربری طبقهبندی شدهاند. مدلهایی که با CoSyn آموزش دیدهاند، در مجموعهای از هفت آزمون مرجع (benchmark) عملکردی بهتر از قدرتمندترین مدلهای اختصاصی مانند GPT-4V و Gemini 1.5 Flash داشتهاند.
در یکی از موارد بسیار قابلتوجه، پژوهشگران تنها با تولید مصنوعی ۷٬۰۰۰ برچسب تغذیهای، مدلی را برای بنچمارک جدیدی که خودشان به نام NutritionQA طراحی کرده بودند، آموزش دادند. این مجموعه دادهی کوچک و هدفمند توانست مدلی را آموزش دهد که نسبت به مدلهایی که با میلیونها تصویر واقعی آموزش دیده بودند، عملکرد بهتری داشت.
مارک یاتسکار (Mark Yatskar)، استادیار گروه علوم کامپیوتر و مهندسی اطلاعات (CIS) و مشاور دکتری یویو یانگ، میگوید:
«آموزش هوش مصنوعی با CoSyn از نظر داده بسیار بهینه است. ما نشان میدهیم که دادهی مصنوعی میتواند به مدلها کمک کند تا به سناریوهای دنیای واقعی که ممکن است مختص نیازهای خاص هر فرد باشد—مثل خواندن برچسب تغذیه برای شخصی با ضعف بینایی—تعمیم پیدا کنند.»
گسترش و تنوعبخشی به مجموعه داده
ایجاد صدها هزار نمونهی آموزشی متنوع و مفید، چالشهای خاص خود را به همراه داشت.
برای دستیابی به مقیاس مورد نیاز، آجی پاتل (Ajay Patel)، دانشجوی دکتری علوم کامپیوتر و اطلاعات (CIS) و یکی از نویسندگان اصلی مقاله، یک کتابخانه نرمافزاری به نام DataDreamer توسعه داد که کل فرآیند تولید داده را بهصورت خودکار انجام میداد. این ابزار به تیم اجازه داد تا مدلهای زبانی را بهصورت موازی راهاندازی کرده و تولید انبوه تصاویر مصنوعی و دستورالعملها را ممکن سازند.
برای جلوگیری از تکرار در دادههای تولیدی، تیم تحقیقاتی از «پرسوناها» (Personas) استفاده کرد—پروفایلهای شخصیتی کوتاه مانند «یک رماننویس علمیتخیلی» یا «یک معلم شیمی» که پاسخهای هوش مصنوعی را هدایت میکردند و محتوای تولیدشده را از نظر سبک و مضمون شکل میدادند. با جاسازی این پرسوناها در دستورات اولیه، CoSyn توانست دادههای آموزشی غنیتر و متنوعتری را در طیف وسیعی از حوزهها تولید کند.
پاتل توضیح میدهد:
«مدلهای هوش مصنوعی تمایل دارند خودشان را تکرار کنند، مگر اینکه آنها را به دیدگاههای متفاوت سوق دهید. پرسوناها به ما یک روش مقیاسپذیر برای انجام این کار میدهند، و نتایج بهوضوح این موضوع را نشان میدهند.»
ایجاد فرصت برابر برای هوش مصنوعی متنباز
با ساخت CoSyn بهطور کامل بر پایه ابزارهای متنباز، پژوهشگران امیدوارند که دسترسی به روشهای قدرتمند آموزش مدلهای ترکیبی بینایی–زبان (vision-language models) را برای همگان ممکن کنند؛ آن هم بدون چالشهای اخلاقی و حقوقی مرتبط با خزش وب (web scraping) و محتوای دارای حق کپیرایت.
کریس کالیسون-برچ (Chris Callison-Burch)، استاد علوم کامپیوتر و مشاور فعلی پاتل و مشاور پیشین یانگ، میافزاید:
«این یک گام بهسوی استفاده از هوش مصنوعی برای کمک به کشفهای علمی جدید است. این ابزار دروازهای به روی سیستمهای هوش مصنوعی میگشاید که توانایی استدلال بر روی اسناد علمی را دارند—تواناییای که میتواند به افراد زیادی، از دانشجویان دانشگاهی گرفته تا پژوهشگران، کمک کند.»
از درک تا عمل
تیم پژوهشی تمام کدها و مجموعهداده CoSyn را بهصورت عمومی منتشر کردهاند تا جامعه جهانی پژوهش بتواند بر پایه این دستاورد، تحقیقات بیشتری انجام دهد.
یانگ (Yang) نیز نگاه رو به آینده دارد و در حال برنامهریزی برای توسعه دادههای مصنوعیای است که به هوش مصنوعی این امکان را بدهد نه تنها تصاویر را درک کند، بلکه با آنها تعامل نیز داشته باشد. هدف نهایی، ایجاد نمایندگان دیجیتال هوشمندی است که بتوانند دکمهها را کلیک کنند، فرمها را پر کنند و در انجام کارهای روزمره به کاربران کمک کنند.
دیدگاهتان را بنویسید