تشخیص مقاوم گفتار به روش دسته‌بندی نویز


دانلود اصل مقاله لاتین و ترجمه  فارسی تشخیص مقاوم گفتار به روش دسته‌بندی نویز

چکیده

در این مقاله تشخیص گفتار (VAD) به کمک ماشین بردار پشتیبان (SVM) به صورت یک مساله دسته‌بندی دو کلاسه فرموله شده است. روش ارائه شده، برای دسته‌بندی گفتار/غیرگفتار، یک فرایند استخراج ویژگی پردازش گفتار مقاوم به نویز را با مدل‌های ماشین بردار پشتیبان آموزش دیده در انواع نویز زمینه‌ها[1] ترکیب می‌کند. همچنین از یک ماشین بردار پشتیان چندکلاسه به منظور دسته‌بندی نویزهای زمینه به کار رفت تا برای تشخیص گفتار، مدل ماشین بردار پشتیبان انتخاب شود. روش تشخیص گفتار ارائه‌شده در این مقاله، توسط داده‌های TIMIT که به صورت مصنوعی و با کمک انواع نویزهای افزوده شده به آن معوج شده‌اند، تست شده و با تشخیص‌گفتارهای بروز و پیشرفته مقایسه می‌وشد. نتایج شبیه‌سازی نشان می‌دهند که روش تشخیص گفتار ارائه شده می‌تواند گفتار را تحت شرایط نسبت سیگنال به نویز ضعیف استخراج کند و اینکه به سطوح مختلفی از نویز حساس نیست.

1 مقدمه

تشخیص گفتار (VAD) فرایندی است که می‌تواند بخش‌های گفتاری و غیرگفتاری را از یک سیگنال گفتار جدا کند. یک گفتار مکالمه‌ای معمولی دارای نسبت گفتار به غیرگفتار چهل به شصت است [1]. لذا، استفاده از تشخیص گفتار می‌تواند ظرفیت کانال و نیز مصرف توان سیستم‌های مخابره صدا را بهبود بخشد. همچنین تشخیص گفتار به کاربردهای مختلف مربوط به گفتار مثل رمزگذاری گفتار [2]، بازشناسی خودکار گفتار [3] و سیستم‌های بهبود گفتار [4] کمک می‌کند.

رویه اساسی بیشتر روش‌های تشخیص گفتاری که امروزه کاربرد دارند شامل مرحله استخراج ویژگی توسط یک بخش تصمیم‌گیری است. مرحله استخراج ویژگی به منظور تمییز اجزاءگفتاری و غیرگفتاری، پارامترهای آکوستیک را از سیگنال گفتار ورودی استخراج می‌کند. پارامترهای مرسوم آکوستیک عبارتند از سطوح انرژی کوتاه مدت، نرخ عبور از صفر، پریود زیر و بمی و اختلاف طیف. سپس، بخش تصمیم‌گیری از این پارامترهای آکوستیک به همراه قوانین تصمیم استفاده می‌کند تا نتیجه تشخیص گفتار را تعیین کند. قوانین تصمیم باید مقادیر آستانه ساده و یا مدل‌های آماری پیچیده‌ای باشند. برای بخش قانون تصمیم‌‌گیری می‌توان از یک دسته‌بندی کننده آموزش‌دیده ای چون ماشین‌های بردار پشتیبان (SVM) استفاده کرد. این مقاله یک روش موثری را نشان می‌دهد که برای تشخیص گفتار در محیط‌های دارای نویز از ماشین بردار پشتیبان بهره می‌برد. بدون توجه به قوانین تصمیم‌گیری، استفاده از ویژگی‌های مناسب در عملکرد تشخیص گفتار بسیار مهم است. از آنجا که سیگنال‌های گفتار غیراستیشنری (غیرساکن) بوده و شامل مولفه گذراهای زیادی هستند، استفاده از یک روش با رزولوشن ثابت زمان-فرکانس برای استخراج ویژگی در تشخیص گفتار و به خصوص در محیط‌های دارای نویز، مناسب نیست. تبدیل موجک مبتنی بر تحلیل سیگنال زمان- فرکانس است. تحلیل موجک از یک تکنیک پنجره‌ای با نواحی اندازه متغیر استفاده می‌کند. وقتی نیازمند اطلاعات دقیق فرکانس پایین (LF) باشیم، این تحلیل از نواحی با فاصله زمانی بزرگ استفاده می‌کند، و وقتی نیازمند اطلاعات فرکانس بالا (HF) باشیم از نواحی کوچکتر استفاده می‌کند. در اینجا، از تبدیل بسته موجک ادراکی[2] (PWPT)، به عنوان ابزاری برای استخراج ویژگی استفاده می‌شود. تبدیل بسته موجک ادراکی به منظور اصلاح و تعدیل ساختار درخت تجزیه‌ای تبدیل بسته موجک (WPT) به کار رفت تا باندهای بحرانی مدل سایکوآکوستیک تا جای ممکن به صورت نزدیک تقریب زده شوند. دلیل اصلی برای تعبیه مدل سایکوآکوستیک در PWPT این است که انسان‌ها قادر به تشخیص گفتارهای مطلوب در محیط‌های داری نویز هستند بدون اینکه دانشی در رابطه با نویز داشته باشند [5]. بنابراین، سیستم شنوائی انسان قادر به تمییز نویزهای آکوستیک مختلف است.

[1] Background noise

[2] Perceptual wavelet packet transform

 

Robust voice activity detection directed by noise classification

Jamal Saeedi · Seyed Mohammad Ahadi · Karim Faez

Abstract In this paper voice activity detection (VAD) is
formulated as a two-class classification problem using support vector machines (SVM). The proposed method combines a noise robust speech processing feature extraction
process together with SVM models trained in different background noises for speech/non-speech classification. A multiclass SVM is also used to classify background noises in
order to select SVM model for VAD. The proposed VAD
is tested with TIMIT data artificially distorted by different
additive noise types and is compared with state-of-the-art
VADs. Experimental results show that the proposed VAD
can extract speech activity under poor SNR conditions, and
it is also insensitive to variable levels of noise.
Keywords Voice activity detection · Perceptual wavelet
packet transform
· Noise classification · Support vector
machine

این فایل ورد ترجمه در 21 صفحه و فایل اصلی pdf مقاله در 12 صفحه به خدمتتون ارائه میشود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *