زنده کردن تصاویر و نقاشی ها به کمک یادگیری ماشین

محققان یادگیری ماشین، سامانه ای را معرفی کرده اند که می تواند تنها یک قاب از تصویر صورت انسان گرفته و آن را به صورت زنده به حرکت درآورد. این امکان ایجاد تحرک، نه تنها برای عکس ها بلکه برای نقاشی ها نیز فراهم است. با اینکه این سامانه بدون عیب و نقص نیست، اما نتیجه کار همانند سایر توانایی های هوش مصنوعی حیرت آور و جالب توجه است.

این مدل در مقاله ای که توسط مرکز هوش مصنوعی سامسونگ چاپ گردید، ثبت شده و روشی نوین برای به کار بردن نقاط اصلی یک صورت مرجع در اطلاعات صورت هدف است که باعث می شود صورت هدف همان کاری را انجام دهد که صورت مرجع انجام می دهد.

این امر به خودی خود کار جدیدی نیست. بلکه بخشی از موضوع تصاویر مصنوعی است که دنیای هوش مصنوعی هم اکنون با آن سر و کار دارد. ما قبلاً می توانستیم صورتی در یک ویدئو بسازیم که بازتاب دهنده صحبت یا نگاه کردن صورتی دیگر باشد. اما بیشتر این مدل ها به میزان قابل توجهی داده، برای مثال یک یا دو دقیقه از یک ویدئو، را برای آنالیز نیاز دارند.

مقاله جدید محققان سامسونگ در مسکو نشان می دهد که تنها با استفاده از یک عکس از صورت شخص، می توان ویدئویی را تولید کرد که شامل چرخیدن چهره، صحبت کردن و یا حالت های معمولی چهره باشد.

آن ها این کار را با بارگذاری فرآیند شناسایی نقاط اصلی صورت (Facial Landmark Identification Process) و با حجم انبوهی از داده ها انجام دادند و  مدلی با کارآیی بالا در پیدا کردن قسمت های صورت که مطابق مدل مرجع باشد، به دست آوردند. بدیهی است که هرچه میزان داده ها بیشتر باشد، نتیجه بهتر است. اما این کار تنها با یک تصویر هم امکان پذیر بوده که یادگیری تک برداشتی (Single-shot Learning) نامیده می شود. به کمک این روش می توان تصویری از آلبرت انیشتین (Albert Einstein)، مرلین مونرو (Marilyn Monroe) یا حتی مونالیزا (Mona Lisa) را به حرکت درآورد تا مانند یک شخص واقعی صحبت کنند!

در این مثال مونالیزا به کمک سه ویدئوی مرجع متفاوت به حرکت درآمده است که همان طور که ملاحظه می کنید نتایج هم در ساختار صورت و هم در رفتار بسیار متفاوت هستند.

این روش هم چنین از شبکه مولد تخاصمی (Generative Adversarial Network) استفاده کرده که لزوماً دو مدل متضاد هم را در رقابت با هم قرار می دهد و یکی از آن ها سعی می کند چیزی که خلق می کند را برای دیگری واقعی جلوه دهد. به کمک این ابزارها نتایج به سطح خاصی از واقع گرایی می رسند که توسط سازندگان آن ها طراحی شده است. مدل تفکیک کننده (Discriminator Model) باید به میزان ۹۰ درصد مطمئن باشد که مدل تصویری از یک صورت انسان است، تا فرآیند ادامه پیدا کند.

در مثال های دیگری که توسط محققان ارائه شده است، کیفیت و وضوح این صورت سخنگوی غیر واقعی، به طور گسترده ای تفاوت دارد. تعدادی از این مدل ها که تلاش می کنند تا شخصی را که تصویر آن از اخبار Cable News کشور آمریکا گرفته شده است را کپی کنند و سایر لوگوها و اخبار زیرنویس که در پایین صفحه نشان داده می شوند را نیز بازتولید می نمایند. به صورتی که این موارد، به صورت قسمت های نامفهومی در می آیند. البته این گونه موارد عجیب و ناملموس همیشه وجود دارند.

به هرحال این عمل اکنون تنها روی چهره و صورت امکان پذیر است و هنوز نمی توان کاری کرد تا مونالیزا با انگشتانش بشکن بزند یا برقصد! اما شاید این امر نیز در آینده نزدیک امکان پذیر گردد.