مجموع نظرات: ۰

شنبه ۶ تیر ۱۴۰۵ - ۱۸:۰۰

۰ نفر

پایان دیپ‌فیک‌های صوتی | صداهای ساخته شده با هوش مصنوعی قابل شناسایی می شوند

گوگل با کمک یک فناوری جدید صداهای تولیدشده با هوش مصنوعی را قابل شناسایی می‌کند.

همشهری آنلاین، فرخنده رفائی: تا همین یکی دو سال پیش تشخیص محتوای تولیدشده با هوش مصنوعی کار چندان دشواری نبود، اما با پیشرفت خیره کننده این فناوری، امروز شرایط کاملا تغییر کرده است. صداهای ساخته‌شده با هوش مصنوعی حالا می‌توانند با خنده، مکث، لحن احساسی و حتی تغییرات طبیعی در گفتار، آن‌قدر واقعی به نظر برسند که بسیاری از کاربران نتوانند آن‌ها را از صدای یک انسان واقعی تشخیص دهند. با افزایش نگرانی‌ها درباره سوءاستفاده از فناوری «دیپ‌فیک صوتی» شرکت‌های فناوری به فکر یافتن راهکاری برای این مشکل افتادند.

به گزارش دیجیتال‌ترندز، شرکت ElevenLabs که یکی از شناخته‌شده‌ترین توسعه‌دهندگان فناوری تولید صدای هوش مصنوعی است، به تازگی اعلام کرده که از فناوری SynthID گوگل دیپ‌مایند برای نشانه‌گذاری فایل‌های صوتی استفاده خواهد کرد. این قابلیت ابتدا برای صداهای تولیدشده توسط کاربران رایگان فعال می‌شود و سپس طی هفته‌های آینده به تمام خروجی‌های صوتی این پلتفرم گسترش پیدا می‌کند.

برخلاف روش‌های قدیمی که اطلاعات شناسایی را به‌صورت متادیتا به فایل اضافه می‌کردند، فناوری SynthID یک واترمارک دیجیتالی نامرئی را مستقیما داخل خود فایل صوتی قرار می‌دهد؛ نشانه‌ای که با گوش انسان قابل شنیدن نیست، اما حتی پس از فشرده‌سازی فایل، تبدیل فرمت، حذف متادیتا، کوتاه کردن فایل یا تغییر سرعت پخش نیز باقی می‌ماند.

گوگل می‌گوید صداهای تولیدشده با هوش مصنوعی به‌گونه‌ای نشانه‌گذاری می‌شوند که کاربران بتوانند با استفاده از ابزار تشخیص بررسی کنند آیا یک فایل صوتی واقعی است یا با هوش مصنوعی ساخته شده است. این فناوری در حقیقت مثل اسکناس‌های دارای علائم امنیتی است که مردم با چشم غیرمسلح همه علائم را نمی‌بینند، اما دستگاه مخصوص می‌تواند اصالت آن را بررسی کند.

هم‌زمان با این تغییر، ElevenLabs ابزار رایگانی با نام Audio Detector نیز معرفی کرده که کاربران با استفاده از آن می‌توانند بررسی کنند که آیا یک فایل صوتی توسط پلتفرم ElevenLabs تولید شده است یا خیر. این موضوع می‌تواند برای خبرنگاران، تولیدکنندگان محتوا، کسب‌وکارها و حتی کاربران عادی که هر روز با فایل‌های صوتی در شبکه‌های اجتماعی روبه‌رو می‌شوند، کاربرد زیادی داشته باشد.

اهمیت این فناوری زمانی بیشتر مشخص می‌شود که بدانیم کلاهبرداری‌های مبتنی بر تقلید صدا به سرعت در حال افزایش هستند. در سال‌های اخیر نمونه‌های متعددی از تماس‌های تلفنی، پیام‌های صوتی و ویدئوهای جعلی منتشر شده که در آن‌ها صدای افراد مشهور، مدیران شرکت‌ها یا حتی اعضای خانواده با کمک هوش مصنوعی شبیه‌سازی شده است. چنین فایل‌هایی می‌توانند برای فریب کاربران، سرقت اطلاعات یا کلاهبرداری مالی مورد استفاده قرار گیرند.

البته خود ElevenLabs نیز تأکید می‌کند که واترمارک‌گذاری به‌تنهایی نمی‌تواند به دیپ‌فیک‌ها پایان دهد و افراد سودجو همچنان برای دور زدن سامانه‌های تشخیص تلاش خواهند کرد. با این حال، کارشناسان معتقدند در آینده‌ای که مرز میان صدای واقعی و صدای تولیدشده با هوش مصنوعی تقریبا از بین می‌رود، وجود ابزاری برای اثبات منشأ فایل‌های صوتی به یکی از مهم‌ترین عوامل حفظ اعتماد کاربران تبدیل خواهد شد.