مدلهای زبانی و توانایی درک تصویر بدون دیدن آن
مدلهای زبانی بزرگ (LLMs) که عمدتاً بر اساس متن آموزش دیدهاند، قادرند مفاهیم بصری پیچیدهای را از طریق کدنویسی و اصلاح خودکار بازنمایی کنند. پژوهشگران MIT از این قابلیت برای آموزش یک سیستم بینایی ماشین بدون نیاز به تصاویر واقعی استفاده کردهاند؛ سیستمی که قادر است عکسهای واقعی را با دقت شناسایی کند.
آیا یک مدل زبانی بدون دیدن تصویر میتواند آن را درک کند؟
پاسخ مثبت است؛ چرا که این مدلها درک خود از تصویر را از طریق توصیفهای متنی و کدهای موجود در اینترنت به دست میآورند.
دانش بصری پنهان در زبان
خلق تصاویر از طریق متن
مدلهای زبانی میتوانند تنها با یک دستور ساده مانند «یک طوطی در جنگل بکش» تصویری تولید کنند. آنها از تجربه متنی خود برای نوشتن کدهای تولید تصویر بهره میگیرند و با بازخوردهای متوالی، نقاشی را بهبود میبخشند.
آزمون بینایی CSAIL برای ارزیابی درک بصری
پژوهشگران MIT با ایجاد مجموعه دادهای به نام Visual Capabilities Dataset از مدلها خواستند صحنههایی را طراحی کنند تا ارزیابی شود که چقدر مفاهیم بصری را درک میکنند. حتی مفاهیم ترکیبی مانند «کیک به شکل ماشین» نیز به درستی پیادهسازی شد.
آموزش سیستم بینایی با دادههای زبانی
آموزش بدون تصویر واقعی
پژوهشگران با استفاده از تصاویر تولیدشده توسط کدهای مدل زبانی، یک سیستم بینایی ماشین آموزش دادند که قادر بود اشیاء موجود در تصاویر واقعی را تشخیص دهد—حتی بدون اینکه قبلاً تصویری واقعی دیده باشد.
عملکرد بهتر نسبت به دادههای مصنوعی سنتی
این سیستم عملکردی بهتر از سایر مدلهایی داشت که بر اساس دادههای تصویری رویهای آموزش دیده بودند، که نشاندهنده دقت و تنوع دادههای بصری تولیدشده توسط LLMهاست.
همکاری مدلهای زبانی با مدلهای تصویری
ترکیب قدرت LLMها با مدلهای تصویری مانند Midjourney میتواند بهویژه در ویرایشهای دقیق مفید باشد. به عنوان مثال، مدل زبانی میتواند ابتدا تصویر را طراحی کند و مدل تصویری مانند diffusion مدل نهایی را با دقت بیشتری تولید کند.
محدودیتها و دیدگاههای آینده
شکاف بین ترسیم و درک تصویر
برخی مدلها میتوانند مفهومی را بهخوبی بکشند اما قادر به شناسایی بازآفرینی همان مفهوم نیستند. به همین دلیل، پژوهشگران به دنبال گسترش آزمایشهای خود برای بررسی تفاوت میان درک و بازتولید بصری هستند.
گسترش قابلیتها و عدم دسترسی به دادههای آموزشی
با توجه به اینکه پژوهشگران به مجموعه داده آموزشی مدلهای مورد استفاده خود دسترسی ندارند، منشأ دقیق دانش بصری مدلها ناشناخته مانده است. گام بعدی، آموزش مستقیم سیستمهای بینایی با کمک مدلهای زبانی است.
نتیجهگیری
تیم CSAIL با این پژوهش نشان داد که مدلهای زبانی، حتی بدون دیدن مستقیم تصویر، قادر به انتقال دانش بصری خود به سیستمهای بینایی هستند. این روش میتواند گامی مهم در ایجاد سیستمهای بینایی ارزانتر، انعطافپذیرتر و کمنیازتر به دادههای تصویری باشد.
ارسال نظر