هوش مصنوعی در ویرایش موسیقی ویدئوها

یک سامانه نوین مبتنی بر هوش مصنوعی که به «PixelPlayer» مشهور است، قادر است تا به یک تصویر نگاه کرده و مجموعه ای از پیکسل ها که خود مولد مجموعه مشخصی از امواج صوتی هستند را تشخیص دهد. تنها کافی است که ویدئویی از یک اجرای موسیقی را در اختیار PixelPlayer بگذارید تا این سامانه یادگیری ژرف (Deep Learning) متعلق به آزمایشگاه علوم کامپیوتر و هوش مصنوعی دانشگاه MIT، صدای هر یک از سازهای موسیقی را بلندتر و یا رساتر کند.

معمولاً نوازندگان آماتور و حرفه­ ای، ساعت­ های زیادی را صرف دیدن کلیپ ­های اجرای موسیقی در YouTube می کنند تا بدین وسیله در مورد چگونگی اجرای دقیق آهنگ های مورد علاقه شان اطلاعات کسب کنند. اما چه می شد اگر راهی بود که بتوان یک ویدئو را پخش کرد و فقط صدای یک ساز را به صورت تفکیک شده شنید؟

جواب سوال بالا دقیقاً همان چیزی است که اخیراً در قالب یک پروژه جدید هوش مصنوعی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی دانشگاه MIT انجام شده است. یعنی: یک سامانه یادگیری ژرف که می تواند با دیدن یک ویدئو صدای سازهای مختلف را تفکیک کرده و آن­ ها را با صدای بلندتر و رساتر بازپخش کند. در ویدئوی زیر، شما می توانید با چگونگی عملکرد این سامانه بیشتر آشنا شوید:

این سامانه که زیر مجموعه یادگیری «خود-نظارتی (Self-Supervised)» است، به هیچ راهنما و یا تفسیر انسانی در مورد نوع ساز و صدای آن نیاز نداشته و خود قادر است انواع سازها و صداها را تشخیص دهد.

این سامانه که بر مبنای بیش از ۶۰ ساعت ویدئوی مختلف آموزش دیده است، می تواند ویدئویی را که تا به حال ندیده است تماشا کرده، سازهای خاص را در حد پیکسل شناسایی کرده و صدای تولید شده از آن سازها را استخراج کند.

به عنوان مثال، این سامانه می تواند ویدئویی از اجرای سازهای توبا (Tuba) و ترامپِت (Trumpet) که در آن آهنگی با زمینه «Super Mario Brothers» نواخته می­ شود را دیده و صوت تولید شده توسط هر ساز را از هم تفکیک کند.

محققین بر این باورند که قابلیت تغییر حجم صدای هر ساز توسط PixelPlayer، نوید سامانه های مشابهی را در آینده می دهد که می توانند به مهندسین در بهبود کیفیت صداهای موجود در فیلم های مربوط به کنسرت های قدیمی، کمک کنند. همچنین تهیه کنندگان موسیقی می­ توانند با استفاده از این سامانه در زمان پیش نمایش یک قطعه، صدای مربوط به ساز دیگری را جایگزین صدای ساز موجود کنند (به عنوان مثال، صدای گیتار الکتریک را جایگزین گیتار آکوستیک کنند).

بر اساس یکی از آخرین مقالات منتشر شده توسط تیم تحقیقاتی مذکور، PixelPlayer قادر است صداهای مربوط به بیش از ۲۰ ساز متداول را شناسایی کند. نویسنده اصلی مقاله، هانگ ژائو (Hang Zhao)، معتقد است که این سامانه اگر تعلیم داده شود، قادر است تعداد سازهای موسیقی بیشتری را تشخیص دهد. اگرچه ممکن است در تشخیص تفاوت های ظریف مربوط به زیرمجموعه های یک ساز، مشکلاتی داشته باشد (به عنوان مثال، در تشخیص صدای ساکسیفون آلتو (Alto) از ساکسیفون تنور (Tenor) می تواند دچار مشکل شود).

تلاش های قبلی انجام شده در جهت تفکیک منابع مولد صوت، بیشتر بر روی صوت تمرکز داشته که به نحو گسترده ای نیاز به برچسب گذاری آن توسط انسان بوده است. در مقابل آن، PixelPlayer عنصر بینایی (Element of Vision) را مطرح می ­کند که بر اساس گفته محققان، نیاز به انسان را غیر ضروری می کند؛ چرا که بینایی سامانه، خود-نظارتی را ممکن می سازد.

این سامانه در ابتدا نقاطی از تصویر را که مولد صوت هستند، مکان یابی کرده و سپس صدای مربوط به هر ساز موسیقی که پیکسل­ هایش شناسایی شده را تفکیک می­ کند.

ژائو (Zhao)، دانشجوی دکترای آزمایشگاه علوم کامپیوتر و هوش مصنوعی، در این رابطه می­ گوید:

ما به دنبال بهترین سناریویی بودیم که بتوان به وسیله آن تشخیص داد که هر ساز چه صدایی تولید می کند. ما واقعاً از این که می توانستیم سازهای موسیقی را در سطح پیکسل مکان یابی کنیم، شگفت زده شدیم. با این کار امکان­ های زیادی پیش روی ما قرار گرفت. مثلاً می توانستیم صوت سازهای جداگانه را تنها با یک کلیک بر روی ویدئو ویرایش کنیم.

PixelPlayer از روش های یادگیری ژرف استفاده می ­کند. به بیان دیگر این سامانه قادر است با استفاده از «شبکه های عصبی» که بر روی ویدئوهای موجود به کار گرفته شده است، الگوهای داده ها را کشف کند. به طور مشخص، یک شبکه عصبی تصاویر ویدئویی و یک شبکه عصبی دیگر صوت را تحلیل کرده و نهایتاً یک ترکیب کننده (Synthesizer) پیکسل ها را با امواج صوتی مرتبط کرده و امکان تفکیک صوت های مختلف را فراهم می کند.

این واقعیت که PixelPlayer از یادگیری ژرفِ به اصطلاح «خود-نظارت» استفاده می کند، بدان معنی است که تیم MIT تمامی جوانب چگونگی یادگیری ماشین برای تشخیص صوت هر ساز را نمی داند.

با این وجود، ژائو (Zhao) می گوید که به نظر می رسد سامانه، عناصر اساسی موسیقی را درک می کند. به عنوان مثال، سامانه می داند که فرکانس های هارمونیک، مربوط به سازهایی مانند ویولون هستند. این در حالی است که پالس های سریع و هماهنگ مربوط به سازهایی نظیر سنتور می شوند.

همچنین ژائو (Zhao) معتقد است که سامانه هایی نظیر PixelPlayer می توانند بر روی ربات ها، با هدف تشخیص صوت های محیطی تولید شده توسط خودروها و یا حیوانات استفاده شوند.