دانلود اصل مقاله لاتین و ترجمه فارسی تشخیص مقاوم گفتار به روش دستهبندی نویز
چکیده
در این مقاله تشخیص گفتار (VAD) به کمک ماشین بردار پشتیبان (SVM) به صورت یک مساله دستهبندی دو کلاسه فرموله شده است. روش ارائه شده، برای دستهبندی گفتار/غیرگفتار، یک فرایند استخراج ویژگی پردازش گفتار مقاوم به نویز را با مدلهای ماشین بردار پشتیبان آموزش دیده در انواع نویز زمینهها[1] ترکیب میکند. همچنین از یک ماشین بردار پشتیان چندکلاسه به منظور دستهبندی نویزهای زمینه به کار رفت تا برای تشخیص گفتار، مدل ماشین بردار پشتیبان انتخاب شود. روش تشخیص گفتار ارائهشده در این مقاله، توسط دادههای TIMIT که به صورت مصنوعی و با کمک انواع نویزهای افزوده شده به آن معوج شدهاند، تست شده و با تشخیصگفتارهای بروز و پیشرفته مقایسه میوشد. نتایج شبیهسازی نشان میدهند که روش تشخیص گفتار ارائه شده میتواند گفتار را تحت شرایط نسبت سیگنال به نویز ضعیف استخراج کند و اینکه به سطوح مختلفی از نویز حساس نیست.
1 مقدمه
تشخیص گفتار (VAD) فرایندی است که میتواند بخشهای گفتاری و غیرگفتاری را از یک سیگنال گفتار جدا کند. یک گفتار مکالمهای معمولی دارای نسبت گفتار به غیرگفتار چهل به شصت است [1]. لذا، استفاده از تشخیص گفتار میتواند ظرفیت کانال و نیز مصرف توان سیستمهای مخابره صدا را بهبود بخشد. همچنین تشخیص گفتار به کاربردهای مختلف مربوط به گفتار مثل رمزگذاری گفتار [2]، بازشناسی خودکار گفتار [3] و سیستمهای بهبود گفتار [4] کمک میکند.
رویه اساسی بیشتر روشهای تشخیص گفتاری که امروزه کاربرد دارند شامل مرحله استخراج ویژگی توسط یک بخش تصمیمگیری است. مرحله استخراج ویژگی به منظور تمییز اجزاءگفتاری و غیرگفتاری، پارامترهای آکوستیک را از سیگنال گفتار ورودی استخراج میکند. پارامترهای مرسوم آکوستیک عبارتند از سطوح انرژی کوتاه مدت، نرخ عبور از صفر، پریود زیر و بمی و اختلاف طیف. سپس، بخش تصمیمگیری از این پارامترهای آکوستیک به همراه قوانین تصمیم استفاده میکند تا نتیجه تشخیص گفتار را تعیین کند. قوانین تصمیم باید مقادیر آستانه ساده و یا مدلهای آماری پیچیدهای باشند. برای بخش قانون تصمیمگیری میتوان از یک دستهبندی کننده آموزشدیده ای چون ماشینهای بردار پشتیبان (SVM) استفاده کرد. این مقاله یک روش موثری را نشان میدهد که برای تشخیص گفتار در محیطهای دارای نویز از ماشین بردار پشتیبان بهره میبرد. بدون توجه به قوانین تصمیمگیری، استفاده از ویژگیهای مناسب در عملکرد تشخیص گفتار بسیار مهم است. از آنجا که سیگنالهای گفتار غیراستیشنری (غیرساکن) بوده و شامل مولفه گذراهای زیادی هستند، استفاده از یک روش با رزولوشن ثابت زمان-فرکانس برای استخراج ویژگی در تشخیص گفتار و به خصوص در محیطهای دارای نویز، مناسب نیست. تبدیل موجک مبتنی بر تحلیل سیگنال زمان- فرکانس است. تحلیل موجک از یک تکنیک پنجرهای با نواحی اندازه متغیر استفاده میکند. وقتی نیازمند اطلاعات دقیق فرکانس پایین (LF) باشیم، این تحلیل از نواحی با فاصله زمانی بزرگ استفاده میکند، و وقتی نیازمند اطلاعات فرکانس بالا (HF) باشیم از نواحی کوچکتر استفاده میکند. در اینجا، از تبدیل بسته موجک ادراکی[2] (PWPT)، به عنوان ابزاری برای استخراج ویژگی استفاده میشود. تبدیل بسته موجک ادراکی به منظور اصلاح و تعدیل ساختار درخت تجزیهای تبدیل بسته موجک (WPT) به کار رفت تا باندهای بحرانی مدل سایکوآکوستیک تا جای ممکن به صورت نزدیک تقریب زده شوند. دلیل اصلی برای تعبیه مدل سایکوآکوستیک در PWPT این است که انسانها قادر به تشخیص گفتارهای مطلوب در محیطهای داری نویز هستند بدون اینکه دانشی در رابطه با نویز داشته باشند [5]. بنابراین، سیستم شنوائی انسان قادر به تمییز نویزهای آکوستیک مختلف است.
[1] Background noise
[2] Perceptual wavelet packet transform
Robust voice activity detection directed by noise classification
Jamal Saeedi · Seyed Mohammad Ahadi · Karim Faez
Abstract In this paper voice activity detection (VAD) is
formulated as a two-class classification problem using support vector machines (SVM). The proposed method combines a noise robust speech processing feature extraction
process together with SVM models trained in different background noises for speech/non-speech classification. A multiclass SVM is also used to classify background noises in
order to select SVM model for VAD. The proposed VAD
is tested with TIMIT data artificially distorted by different
additive noise types and is compared with state-of-the-art
VADs. Experimental results show that the proposed VAD
can extract speech activity under poor SNR conditions, and
it is also insensitive to variable levels of noise.
Keywords Voice activity detection · Perceptual wavelet
packet transform · Noise classification · Support vector
machine
این فایل ورد ترجمه در 21 صفحه و فایل اصلی pdf مقاله در 12 صفحه به خدمتتون ارائه میشود.