طراحی سامانه بازشناسی خودکار گفتار
محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق به طراحی سامانهای برای بکارگیری اطلاعات تصویری در بازشناسی خودکار گفتار صوتی-تصویری شدند.
به گزارش پایگاه خبری پزشکان و قانون (پالنا)، فاطمه وخشیته درباره طرح خود مبنی بر "طراحی سامانه بازشناسی خودکار گفتار" اظهار کرد: بهکارگیری منابع اطلاعاتی متعدد نقش مهمی در سامانههای بازشناسی گفتار دارد، بهطوری که عملکرد مطلوبتر سامانهها میتواند در نتیجه استفاده صحیح از اطلاعات کمکی مناسب و با روشهای دقیق شود.
این دکترای مهندسی پزشکی ادامه داد: این پروژه به راهنمایی دکتر فرشاد الماس گنج و مشاوره دکتر احمد نیک آبادی انجام شده است، این موضوع ریشه در طبیعت ادراک در انسان دارد؛ چراکه در مغز انسان و از جمله در فرآیندهای تولید و ادراک گفتار، بهطور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت میپذیرد.
وخشیته با اشاره به تحقیقات خود در زمینه بازشناسی خودکار، گفت: هدف این تحقیق بهکارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائه سامانه بازشناسی خودکار گفتار صوتی-تصویری است، تا ضمن برآورده شدن طبیعت چندگونهای ادراک در انسان، از خاصیت مقاوم بودن اطلاعات تصویری در برابر نویز صوتی نیز استفاده شود.
وی افزود: در بازشناسی گفتار صوتی-تصویری، هر یک از روشهای استخراج ویژگی، مدلسازی، تلفیق گونههای مختلف صوتی و تصویری و نهایتاً بازشناسی دوگونهای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگیهای مستخرج در شرایط ارائه یک منبع اطلاعاتی، ویژگیهای تکگونهای نامیده میشوند.
این محقق تصریح کرد: منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگیهای مستخرج در شرایط فراهمشدن همزمان دو منبع اطلاعاتی، ویژگیهای دوگونهای نامیده میشوند، بر این اساس در این رساله ابتدا ویژگیهای مناسب صوتی و تصویری جستجو و استخراج میشوند.
وخشیته اضافه کرد: در خصوص شاخه تصویری، از روشهای کلاسیک و مبتنی بر شبکههای عصبی عمیق استفاده میشود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد میشود که از این میان ویژگیهای تصویری هیبریدی که در یک فرآیند پیشپردازشی پیچیده استخراج می شوند، بهعنوان ویژگیهای منتخب تصویری درنظر گرفته خواهند شد.
وی در خصوص روند کار با این سامانه ادامه داد: شاخه صوتی، ویژگیهای کپسترال فرکانس حوزه مل پس از انجام مقایسهها بهعنوان ویژگیهای منتخب صوتی لحاظ میشوند؛ در ادامه، تلفیق کارآمد ویژگیهای منتخب تکگونهای دنبال میشود، بهگونهای که موجب همافزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینه موجود در گفتار صوتی شود.
این دکترای مهندسی پزشکی گفت: در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد میشود، خاطر نشان کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی "چگونگی بازنمایی اطلاعات" ویژگیهای حاصل از منابع صوتی و تصویری استفاده میشود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی کمینه صورت میپذیرد. در رویکرد دوم، از شبکههای کدگذار خودکار عمیق استفاده میشود و تلفیق اطلاعات در لایه گلوگاه شبکه صورت میپذیرد. در این رویکرد یک ساختار دوگونهای پیشنهاد میشود که طی چهار مرحله توسعه مییابد و تکمیل میشود.
وخشیته ادامه داد: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشتدهنده ویژگیهای گلوگاهی نویزی به تمیز و قراردادن لایه برچسبها در کنار گلوگاه شبکه، ساختاری بهدست میآید که نسبت به سایر ساختارها از کارآمدی بالاتری برخوردار است.
وی با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکردها به طور کلی موفقیت عملکرد آنها را نشان میدهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.
این محقق اظهار کرد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸.۵ درصد را نشان میدهد که در این شرایط، با تلفیق ویژگیها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد کاهش مییابد که این مقدار با تلفیق ویژگیها توسط شبکه کدگذار خودکار عمیق دوگونهای برابر با ۱۰.۳ درصد میشود. از این سامانه میتوان برای افرادی که مشکل ناشنوایی دارند، استفاده کرد.
وخشیته با اشاره به کاربرد این سامانه گفت: کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آنها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار این افراد جبران شود که این کاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یکی از کاربردهای سامانه محسوب میشود.
این دکترای مهندسی پزشکی ادامه داد: این پروژه به راهنمایی دکتر فرشاد الماس گنج و مشاوره دکتر احمد نیک آبادی انجام شده است، این موضوع ریشه در طبیعت ادراک در انسان دارد؛ چراکه در مغز انسان و از جمله در فرآیندهای تولید و ادراک گفتار، بهطور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت میپذیرد.
وخشیته با اشاره به تحقیقات خود در زمینه بازشناسی خودکار، گفت: هدف این تحقیق بهکارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائه سامانه بازشناسی خودکار گفتار صوتی-تصویری است، تا ضمن برآورده شدن طبیعت چندگونهای ادراک در انسان، از خاصیت مقاوم بودن اطلاعات تصویری در برابر نویز صوتی نیز استفاده شود.
وی افزود: در بازشناسی گفتار صوتی-تصویری، هر یک از روشهای استخراج ویژگی، مدلسازی، تلفیق گونههای مختلف صوتی و تصویری و نهایتاً بازشناسی دوگونهای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگیهای مستخرج در شرایط ارائه یک منبع اطلاعاتی، ویژگیهای تکگونهای نامیده میشوند.
این محقق تصریح کرد: منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگیهای مستخرج در شرایط فراهمشدن همزمان دو منبع اطلاعاتی، ویژگیهای دوگونهای نامیده میشوند، بر این اساس در این رساله ابتدا ویژگیهای مناسب صوتی و تصویری جستجو و استخراج میشوند.
وخشیته اضافه کرد: در خصوص شاخه تصویری، از روشهای کلاسیک و مبتنی بر شبکههای عصبی عمیق استفاده میشود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد میشود که از این میان ویژگیهای تصویری هیبریدی که در یک فرآیند پیشپردازشی پیچیده استخراج می شوند، بهعنوان ویژگیهای منتخب تصویری درنظر گرفته خواهند شد.
وی در خصوص روند کار با این سامانه ادامه داد: شاخه صوتی، ویژگیهای کپسترال فرکانس حوزه مل پس از انجام مقایسهها بهعنوان ویژگیهای منتخب صوتی لحاظ میشوند؛ در ادامه، تلفیق کارآمد ویژگیهای منتخب تکگونهای دنبال میشود، بهگونهای که موجب همافزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینه موجود در گفتار صوتی شود.
این دکترای مهندسی پزشکی گفت: در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد میشود، خاطر نشان کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی "چگونگی بازنمایی اطلاعات" ویژگیهای حاصل از منابع صوتی و تصویری استفاده میشود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی کمینه صورت میپذیرد. در رویکرد دوم، از شبکههای کدگذار خودکار عمیق استفاده میشود و تلفیق اطلاعات در لایه گلوگاه شبکه صورت میپذیرد. در این رویکرد یک ساختار دوگونهای پیشنهاد میشود که طی چهار مرحله توسعه مییابد و تکمیل میشود.
وخشیته ادامه داد: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشتدهنده ویژگیهای گلوگاهی نویزی به تمیز و قراردادن لایه برچسبها در کنار گلوگاه شبکه، ساختاری بهدست میآید که نسبت به سایر ساختارها از کارآمدی بالاتری برخوردار است.
وی با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکردها به طور کلی موفقیت عملکرد آنها را نشان میدهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.
این محقق اظهار کرد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدیِ مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸.۵ درصد را نشان میدهد که در این شرایط، با تلفیق ویژگیها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد کاهش مییابد که این مقدار با تلفیق ویژگیها توسط شبکه کدگذار خودکار عمیق دوگونهای برابر با ۱۰.۳ درصد میشود. از این سامانه میتوان برای افرادی که مشکل ناشنوایی دارند، استفاده کرد.
وخشیته با اشاره به کاربرد این سامانه گفت: کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آنها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار این افراد جبران شود که این کاربرد در بهبود انتقال پیام در سیگنال گفتار گویندگان است؛ این یکی از کاربردهای سامانه محسوب میشود.
وی تصریح کرد: در محیط های شلوغ که اطلاعات صوتی گویندگان مخدوش یا نامفهوم است، از اطلاعات تصویری این افراد کمک گرفته میشود و پیغام صوتی منتقل میشود از جمله کاربردهای این سامانه است. این کاربرد در بهبود انتقال پیام برای شنوندگان است.
به گزارش ایسنا این دکترای مهندسی پزشکی در پایان خاطرنشان کرد : اینها نمونه کاربردهای رایجی هستند که در آنها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده میشود، اما توجیه بکارگیری شبکههای عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری "لبخوانی" و گفتار صوتی معمولی و همچنین در شرایطی است که از اطلاعات صوتی و تصویری بصورت همزمان استفاده میشود، است.
به گزارش ایسنا این دکترای مهندسی پزشکی در پایان خاطرنشان کرد : اینها نمونه کاربردهای رایجی هستند که در آنها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده میشود، اما توجیه بکارگیری شبکههای عصبی عمیق در این راستا ارتقای دقت بازشناسی گفتار تصویری "لبخوانی" و گفتار صوتی معمولی و همچنین در شرایطی است که از اطلاعات صوتی و تصویری بصورت همزمان استفاده میشود، است.
پایان پیام/
نظر خود را بنویسید