پایان نامه برق الکترونیک-استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

دانلود متن کامل کارشناسی ارشد مهندسی برق گرایش الکترونیک

عنوان :استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

استاد راهنما:

آقای دکتر مروی

 

استاد مشاور:

آقای دکتر احمدی فرد

 

پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد

تکه هایی از متن به عنوان نمونه :

چکیده

در این پایان نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی­های استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

کلمات کلیدی:

لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی

 

 

 

 

 

فهرست مطالب

فصل اول : مقدمه ………………………………………………………………………………………………………………1

1-1 مقدمه ……………………………………………………………………………………………………………………….2

1-2 ساختار پایان نامه ………………………………………………………………………………………………………4

فصل دوم : مروری بر تحقیقات انجام شده ……………………………………………………………………….5

2-1 مقدمه ………………………………………………………………………………………………………………………6

2-2 مدل­های مرز فعال …………………………………………………………………………………………………….6

2-2-1 تابع انرژی ………………………………………………………………………………………………………….7

2-2-2 حداقل سازی انرژی ……………………………………………………………………………………………..9

2-3 مدل­های شکل فعال ………………………………………………………………………………………………..12

2-4 مدل­های انعطاف­پذیر ………………………………………………………………………………………………16

2-4-1 مدل لب ………………………………………………………………………………………………………….16

2-4-2 فرمول­بندی تابع هزینه ………………………………………………………………………………………17

2-4-3 بهینه سازی پارامترهای مدل ……………………………………………………………………………….18

2-5 الگوهای انعطاف­پذیر ……………………………………………………………………………………………….19

2-6 موجک هار ……………………………………………………………………………………………………………..21

2-6-1 پیش پردازش …………………………………………………………………………………………………..21

2-6-2 تبدیل رنگی ……………………………………………………………………………………………………..22

2-6-3 قطعه­بندی ……………………………………………………………………………………………………….22

2-7 آنالیز مؤلفه­های خاص ……………………………………………………………………………………………..23

2-7-1 زمینه ریاضی EM-PCA ………………………………………………………………………………….24

2-7-2 تولید منیفولد از تصویر ورودی………………………………………………………………………………24

2-8 تبدیل کسینوسی گسسته ………………………………………………………………………………………..26

2-8-1 مدلسازی بر اساس 3-D DCT…………………………………………………………………………..26

2-8-1-1 استخراج ویژگی حرکتی لب ……………………………………………………………………….27

2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه …………………………………………………………27

2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………..28

2-8-2 استخراج ویژگی از ناحیه مورد نظر……………………………………………………………………….29

2-8-2-1 استخراج ویژگی­های دیداری………………………………………………………………………..30

2-8-3 تبدیل کسینوسی و LSDA………………………………………………………………………………31

2-8-3-1 پیش پردازش ………………………………………………………………………………………….31

2-8-3-2 روش DCT……………………………………………………………………………………………31

2-8-3-3 DCT + PCA ……………………………………………………………………………………..31

2-8-3-4 DCT +LDA ………………………………………………………………………………………32

2-8-3-5 DCT +LSDA……………………………………………………………………………………32

2-8-3-6 ماتریس انتقال ویژگی…………………………………………………………………………………35

2-9 مدل لب با منحنی بیزیر ………………………………………………………………………………………….35

2-10 جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………37

فصل سوم : روش­های استخراج ناحیه دهان و سیستم­های تشخیص …………………………..39

3-1 مقدمه ……………………………………………………………………………………………………………………40

3-2 آشکارسازی ناحیه لب ……………………………………………………………………………………………..41

3-2-1 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………41

3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ………………………………………………………………42

3-2-3 حذف مؤلفه قرمز ……………………………………………………………………………………………..43

3-2-4 الگوریتم کا- مینز …………………………………………………………………………………………….43

3-2-4-1 پیاده­سازی الگوریتم …………………………………………………………………………………44

3-2-5 شدت روشنایی و باینری کردن ……………………………………………………………………………45

3-2-6 روش­های ترکیبی ………………………………………………………………………………………………45

3-3 روش­های کلاسه­بندی و شناسایی …………………………………………………………………………….47

3-3-1 شبکه عصبی …………………………………………………………………………………………………….47

3-3-1-1 شبکه­های پیش­خور ………………………………………………………………………………….48

3-3-1-2 الگوریتم پس انتشار خطا ……………………………………………………………………………48

3-3-2 مدل مخفی مارکوف …………………………………………………………………………………………..48

فصل چهارم : ویژگی­های استخراجی وپیاده­سازی روش پیشنهادی و معرفی پایگاه داده …………………………………………………………………………………………………………………………………….51

4-1 پایگاه داده ……………………………………………………………………………………………………………..52

4-1-1 جداسازی ویدیوهای ضبط شده ……………………………………………………………………………53

4-2 ویژگی­های استخراج شده ………………………………………………………………………………………..53

4-3 جداسازی ناحیه لب ………………………………………………………………………………………………..54

4-3-1 آستانه­گذاری ……………………………………………………………………………………………………54

4-3-2 استفاده از روش حذف رنگ قرمز ………………………………………………………………………….56

4-3-3 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………..57

4-3-4 برچسب­گذاری اجزا ……………………………………………………………………………………………58

4-3-5 جعبه محاطی …………………………………………………………………………………………………..59

4-4 ضرایب مل فرکانسی ………………………………………………………………………………………………60

4-4-1 فریم بندی ……………………………………………………………………………………………………….61

4-4-2 پنجره­گذاری …………………………………………………………………………………………………….62

4-4-3 تبدیل فوریه گسسته ………………………………………………………………………………………….62

4-4-4 مقیاس مل ………………………………………………………………………………………………………62

4-4-5 تبدیل کسینوسی گسسته …………………………………………………………………………………..64

4-4-5-1 محاسبه ضرایب کسینوسی و ویولت ……………………………………………………………..65

4-4-5-2 محاسبه ضرایب مل فرکانسی ………………………………………………………………………65

4-5 یافتن مرکز لب و استخراج ناحیه­ای حول لب ……………………………………………………………..66

4-5-1 اسکن زیگزاگ …………………………………………………………………………………………………..67

4-5-2 کاهش ویژگی با LSDA ……………………………………………………………………………………68

4-5-2-1 استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش ………………………………..70

4-5-2-2 استفاده از تابع Tansigmoid و الگوریتم ممنتوم …………………………………………70

4-6 استخراج ویژگی از تصاویر مختلف …………………………………………………………………………….72

4-6-1 استخراج ویژگی از تصاویر جدید …………………………………………………………………………..72

4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی ……………………………………………………………….72

4-7 کاهش تعداد فریم­ها و کاهش سایز تصاویر…………………………………………………………………73

4-7-1 محاسبه ضرایب MFCC …………………………………………………………………………………..73

4-7-2 ضرایب DCT , DWT …………………………………………………………………………………….73

4-7-3 کاهش تعداد فریم­ها و کاهش سایز تصاویر با دستور ری­سایز ……………………………………..76

4-8 نتیجه­گیری ……………………………………………………………………………………………………………81

4-9 پیشنهاد ادامه کار ……………………………………………………………………………………………………82

مراجع ………………………………………………………………………………………………………………………………83

 

 

 

فهرست جدول­ها

جدول 1-1 گروه­بندی ویزم­ها در انگلیسی …………………………………………………………………………………………3

جدول 1-2 گروه­بندی ویزم­ها در زبان فارسی ……………………………………………………………………………………3

جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی ……………………………………………………………………………..52

جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی …………………………………………………………………………………… 71

جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی …………………………………………………………………………………….71

جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم …………………………………..74

جدول 4- 5 نتایج حاصل از ویژگی­های استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ….74

جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم …………………………75

جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ………………………….75

جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ……………….76

جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ………………..76

 

 

 

 

 

 

فهرست شکل­ها

شکل 2- 1 مدل کانتور فعال نمونه­گیری شده ……………………………………………………………………………………..11

شکل 2- 2 علامت گذاری انجام شده بر روی لب ……………………………………………………………………………….13

شکل 2- 3 مدل توزیع نقطه­ای، هر حالت با σ2 ± اطراف متوسط رسم شده است ……………………………….14

شکل 2- 4 مدل هندسی لب …………………………………………………………………………………………………………… 16

شکل 2- 5 الگوی لب …………………………………………………………………………………………………………………….. 19

شکل 2- 6 فرآیند تولید منیفولد …………………………………………………………………………………………………….25

شکل 2- 7 (a) نتیجه درون­یابی منیفولد (b) نمونه­گیری دوباره از منیفولد درون­یابی شده با 20 نقطه کلیدی ……………………………………………………………………………………………………………………………………………26

شکل 2- 8 نمودار بلوکی برای استخراج ویژگی­های حرکت مبتنی بر شبکه ……………………………………….28

شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………………………….29

شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی …………………………………………30

شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است……………………………………………………33

شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب …………………………………………………………….36

شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ……………………………………………………..38

شکل 31 نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ………………………………………..42

شکل 3-2 الگوریتم جداسازی ناحیه لب ………………………………………………………………………………………….46

شکل 4-1 آستانه گذاری با ترشلد 0.4 ………………………………………………………………………………………………55

شکل 4-2 آستانه گذاری با ترشلد 0.5 …………………………………………………………………………………………….55

شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β ……………………………………………………………….56

شکل 4-4 تصاویر مربوط به گوینده ها ………………………………………………………………………………………….. 57

شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم ……………………………………………………………….58

شکل 4- 6 شکل لب استخراج شده بعد از برچسب­گذاری ……………………………………………………………….. 59

شکل 4-7 مستطیل محاطی لب …………………………………………………………………………………………………….. 60

شکل 4-8 مراحل محاسبه ضرایب مل ……………………………………………………………………………………………. 61

شکل 4-9 فیلتر بانک مثلثی …………………………………………………………………………………………………………. 63

شکل 4-10 ناحیه مورد نظر پیرامون لب ………………………………………………………………………………………….. 66

شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر …………………………………… 67

شکل 4-12 نحوه اسکن زیگزاگ ماتریس ……………………………………………………………………………………….. 68

شکل 4-13 نتایج حاصل از ویژگی­ها + LSDA ………………………………………………………………………………..70

شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم…………………………………. 77

شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم…………………………………. 78

شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ……………………………………………………… 79

شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7………………………………………………………. 80


 

 

 

فصل اول : مقدمه

 

 

 

 

 

 

 

 

1-1 مقدمه

از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.

افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است [1] , [2].

جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

n,l8p,b,m1
R9f,v2
A10th,dh3
E11t,d4
I12k,g5
O13sh,zh6
U14s,z7

جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

1. ف، و5. ر9. آ
2. ث، س، ص، ز، ذ، ظ، ض6.ج، چ، گ، ک، ن، ت، د، ی، ط10. ٳ
3. ژ، ش7. ای11. ٱ
4. ب، پ، م8. ٲ12. او

به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

1-2 ساختار پایان نامه

در فصل­های مختلف این پایان نامه روش­های شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمه­ای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روش­های مختلف برای انجام این کار پرداخته شده است. در فصل سوم روش­های مختلف جداسازی دهان از بقیه قسمت­های صورت معرفی شده است تا با استفاده از این روش­ها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی­ و نیز ابعاد زیاد ویژگی­ها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگی­های فرکانسی – زمانی از ناحیه مورد نظر از دهان از فریم­های مختلف ویدیو و نیز عملکرد آن­ها با تغییر تعداد فریم­های انتخابی و سایز تصاویر با یکی از روش­های کاهش ویژگی نیز بررسی شده است. که این ویژگی­های استخراجی برای تشخیص به شبکه عصبی اعمال شده­اند و همچنین پایگاه داده­ای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.

[1] phonem

[2] viseme

[3] Audio Speech Recognition

[4] Visual Speech Recognition

[5] Audio-Visual Speech Recognition

***ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است***

متن کامل را می توانید دانلود نمائید

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود است

تعداد صفحه :124

قیمت : چهارده هزار تومان

بلافاصله پس از پرداخت ، لینک دانلود به شما نشان داده می شود

و به ایمیل شما ارسال می شود.

پشتیبانی سایت :        09124404335        info@arshadha.ir

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

شماره کارت :  6037997263131360 بانک ملی به نام محمد علی رودسرابی

 

11

مطالب مشابه را هم ببینید

فایل مورد نظر خودتان را پیدا نکردید ؟ نگران نباشید . این صفحه را نبندید ! سایت ما حاوی حجم عظیمی از پایان نامه های دانشگاهی است. مطالب مشابه را هم ببینید. برای یافتن فایل مورد نظر کافیست از قسمت جستجو استفاده کنید. یا از منوی بالای سایت رشته مورد نظر خود را انتخاب کنید و همه فایل های رشته خودتان را ببینید

4 پاسخ

ترک بک و پینگ بک

  1. […] که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[۱] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان […]

  2. […] که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[۱] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان […]

  3. […] که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[۱] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان […]

بخش دیدگاه ها غیر فعال است.