درک بصری مدل‌های زبانی بزرگ بدون داده تصویری: انقلابی در بینایی ماشین

هوش مصنوعی چگونه می‌بیند؟ رمزگشایی از دانش بصری مدل‌های زبانی

مدل‌های زبانی و توانایی درک تصویر بدون دیدن آن

مدل‌های زبانی بزرگ (LLMs) که عمدتاً بر اساس متن آموزش دیده‌اند، قادرند مفاهیم بصری پیچیده‌ای را از طریق کدنویسی و اصلاح خودکار بازنمایی کنند. پژوهشگران MIT از این قابلیت برای آموزش یک سیستم بینایی ماشین بدون نیاز به تصاویر واقعی استفاده کرده‌اند؛ سیستمی که قادر است عکس‌های واقعی را با دقت شناسایی کند.

آیا یک مدل زبانی بدون دیدن تصویر می‌تواند آن را درک کند؟

پاسخ مثبت است؛ چرا که این مدل‌ها درک خود از تصویر را از طریق توصیف‌های متنی و کدهای موجود در اینترنت به دست می‌آورند.

دانش بصری پنهان در زبان

خلق تصاویر از طریق متن

مدل‌های زبانی می‌توانند تنها با یک دستور ساده مانند «یک طوطی در جنگل بکش» تصویری تولید کنند. آن‌ها از تجربه متنی خود برای نوشتن کدهای تولید تصویر بهره می‌گیرند و با بازخوردهای متوالی، نقاشی را بهبود می‌بخشند.

آزمون بینایی CSAIL برای ارزیابی درک بصری

پژوهشگران MIT با ایجاد مجموعه داده‌ای به نام Visual Capabilities Dataset از مدل‌ها خواستند صحنه‌هایی را طراحی کنند تا ارزیابی شود که چقدر مفاهیم بصری را درک می‌کنند. حتی مفاهیم ترکیبی مانند «کیک به شکل ماشین» نیز به درستی پیاده‌سازی شد.

آموزش سیستم بینایی با داده‌های زبانی


آموزش بدون تصویر واقعی

پژوهشگران با استفاده از تصاویر تولیدشده توسط کدهای مدل زبانی، یک سیستم بینایی ماشین آموزش دادند که قادر بود اشیاء موجود در تصاویر واقعی را تشخیص دهد—حتی بدون اینکه قبلاً تصویری واقعی دیده باشد.

عملکرد بهتر نسبت به داده‌های مصنوعی سنتی

این سیستم عملکردی بهتر از سایر مدل‌هایی داشت که بر اساس داده‌های تصویری رویه‌ای آموزش دیده بودند، که نشان‌دهنده دقت و تنوع داده‌های بصری تولیدشده توسط LLMهاست.

همکاری مدل‌های زبانی با مدل‌های تصویری

ترکیب قدرت LLMها با مدل‌های تصویری مانند Midjourney می‌تواند به‌ویژه در ویرایش‌های دقیق مفید باشد. به عنوان مثال، مدل زبانی می‌تواند ابتدا تصویر را طراحی کند و مدل تصویری مانند diffusion مدل نهایی را با دقت بیشتری تولید کند.

محدودیت‌ها و دیدگاه‌های آینده

شکاف بین ترسیم و درک تصویر

برخی مدل‌ها می‌توانند مفهومی را به‌خوبی بکشند اما قادر به شناسایی بازآفرینی همان مفهوم نیستند. به همین دلیل، پژوهشگران به دنبال گسترش آزمایش‌های خود برای بررسی تفاوت میان درک و بازتولید بصری هستند.

گسترش قابلیت‌ها و عدم دسترسی به داده‌های آموزشی

با توجه به اینکه پژوهشگران به مجموعه داده آموزشی مدل‌های مورد استفاده خود دسترسی ندارند، منشأ دقیق دانش بصری مدل‌ها ناشناخته مانده است. گام بعدی، آموزش مستقیم سیستم‌های بینایی با کمک مدل‌های زبانی است.
نتیجه‌گیری
تیم CSAIL با این پژوهش نشان داد که مدل‌های زبانی، حتی بدون دیدن مستقیم تصویر، قادر به انتقال دانش بصری خود به سیستم‌های بینایی هستند. این روش می‌تواند گامی مهم در ایجاد سیستم‌های بینایی ارزان‌تر، انعطاف‌پذیرتر و کم‌نیازتر به داده‌های تصویری باشد.

تاریخ انتشار : ۱۴۰۳/۱۱/۱۵ به روزشده در : ۱۴۰۴/۰۲/۳۱ / تعداد بازدید : ۲۳۶

ارسال نظر

دیدگاه