دانلود سمینار ارشد:روشهای استخراج اطلاعات با استفاده از داده های دسترسی به وب

دانلود متن کامل سمینار ویژه کارشناسی ارشد رشته فناوری اطلاعات

گرایش :طراحی و تولید نرم افزار

عنوان : روشهای استخراج اطلاعات با استفاده از داده های دسترسی به وب

دانشگاه شیراز

سمینار ویژه کارشناسی ارشد مهندسی فناوری اطلاعات

گرایش طراحی و تولید نرم افزار

عنوان فارسی :  روشهای استخراج اطلاعات با استفاده از داده های دسترسی به وب

English title : Extracting Information based on Mining Web Usage

استاد درس:

جناب آقای دکتر حمزه

خرداد ماه 1393

برای رعایت حریم خصوصی نام نگارنده پایان نامه درج نمی شود

(در فایل دانلودی نام نویسنده موجود است)

تکه هایی از متن پایان نامه به عنوان نمونه :

(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

فهرست مطالب

  • مفهوم داده کاوی و وب کاوی ——————————————-  5
    • وب کاوی ———————————————————-5

1-2-        ارتباط وب کاوی و داده کاوی——————————————-6

1-3-        انواع وب کاوی——————————————————-7

  • اهداف و کاربرد ———————————————————8

2-1-        خصوصی سازی محتوای وب———————————————8

2-2-        پیش بازیابی ———————————————————8

2-3-        بهبود طراحی سایت های وب——————————————–8

2-4- تشخیص اجتماعات وب—————————————————9

2-5-پیمایش وب————————————————————9

2-6- کاربردهای وب کاوی—————————————————–9

2-6-1- تجارت الکترونیکی—————————————————-10

2-6-2-  موتورهای جستجو—————————————————10

2-6-3-  حراجی در وب——————————————————10

3-         مشکلات و چالش های وب کاوی——————————————11

4-         وب کاوی و زمینه های تحقیقاتی مرتبط————————————12

4-1- وب کاوی و داده کاوی————————————————–12

4-2- وب کاوی و بازیابی اطلاعات———————————————-12

4-3- وب کاوی و استخراج اطلاعات———————————————13

4-4- وب کاوی و یادگیری ماشین———————————————-13

5- انواع وب کاوی———————————————————–14

5-1-  کاوش محتوای وب—————————————————–15

5-1-1-  انواع کاوش محتوا در وب ———————————————16

5-1-1-1- طبقه بندی——————————————————-16

5-1-1-3- خوشه بندی——————————————————16

5-1-1-4- سایر انواع کاوش محتوا در وب—————————————-17

5-1-2- رویکردهای کاوش محتوا در وب ————————————————-17

5-1-3- الگوریتم های کاوش محتوا در وب —————————————18

 

5-1-3- 1- درخت تصمیم——————————————————–18

5-1-3- 2- شبکه عصبی———————————————————-18

5-1-3- 3- سایر الگوریتم های کاوش————————————————18

5-2- کاوش ساختار وب———————————————————–19

5-2-1- مدل های بازنمایی ساختار وب———————————————–19

5-2-1-1- مدل های مبتنی بر گراف————————————————-19

5-2-1-2- مدل های مارکو———————————————————21

5-2-2- الگوریتم های کاوش ساختار وب———————————————-21

5-2-2-1- HITS—————————————————————-21

5-2-2-2- Page Rank———————————————————-22

5-2-2-3- الگوریتم جریان بیشینه—————————————————23

5-2-2-4- Average Clicks—————————————————–24

6- کاوش استفاده از وب————————————————————24

6-1- انواع داده های استفاده از وب—————————————————25

6-1-1- داده های سرورهای وب—————————————————–25

6-1-2- داده های سرورهای پراکسی————————————————–25

6-1-3- داده های کلاینت———————————————————-25

6-2- پیش پردازش داده های استفاده از وب——————————————–26

6-2-1- پاکسازی داده————————————————————-26

6-2-2- تشخیص و بازسازی نشست—————————————————26

6-2-3- بازیابی ساختار و محتوا——————————————————27

6-2-4- قالب بندی داده————————————————————27

6-3- روش های کاوش استفاده از وب————————————————-28

6-3-1- قوانین انجمنی————————————————————-28

6-3-2- الگوهای ترتیبی————————————————————28

6-3-3- خوشه بندی—————————————————————29

6-4- کاربردهای کاوش استفاده از وب————————————————-29

6-4-1- خصوصی سازی محتوای وب————————————————–30

6-4-2- پیش بازیابی ————————————————————–30

6-4-3- بهبود طراحی سایت های وب————————————————-30

6-5-خروجیها و تکنیکهای wum—————————————————-30

6-6 -تحلیل wum—————————————————————31

7- نتیجه گیری——————————————————————-32

8- مراجع————————————————————————33

 

  • مفهوم داده کاوی[1] و وب کاوی[2]

داده کاوی  یک نوع تحلیل برروی پایگاه داده های بزرگ است که به کشف دانش جدید از آن پایگاه داده منتهی می شود. وقتی پایگاه داده سیستم بزرگ می شود و اطلاعات متنوعی در آن وجود دارد با استفاده از داده کاوی می توانیم الگوهایی را برروی این پایگاه داده کشف کنیم که با روابط درون پایگاه داده نمی شد به آن پی برد.بعنوان مثالی ساده ، شما پایگاه داده سایت آمازون (خرید و فروش اینترنتی) را در نظر بگیرید، برروی پایگاه داده این سایت اطلاعات زیادی از خرید ها و جستجو های افراد مختلف وجود دارد، با استفاده از تکنیک های داده کاوی می توانیم یک الگو بدست بیاوریم که مشخص می کند هر جستجو در سایت در نهایت منجر به چه خریدی شده است و سپس آن را به سایر کاربران بعنوان راهنمایی ارائه کنیم.

داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها – در زمینه های کسب وکار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌کارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده کاوی پیش بینی است و به صورت دقیق تر میتوان گفت :
کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند [5].

داده کاوی ، علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد. به عبارت دیگرداده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد [5].

 

  • وب کاوی

با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد .وب کاوی در واقع کاربرد تکنیک های داده کاوی به منظور کشف الگوهایی از وب می باشد.

استفاده از وب داده های[3]  وب یکی از گام های کلیدی در کشف دانش در پایگاه داده، ایجاد یک مجموعه داده مناسب جهت انجام داده کاوی می باشد.در وب کاوی این داده می تواند از سمت سرور، مشتری، پروکسی سرور یا از یک پایگاه داده سازمان جمع آوری شود. هر کدام از این داده ها نه تنها از نظر منابع داده متفاوت می باشند بلکه از نظر انواع داده های موجود و محدوده مکانی که آن داده از آنجا جمع آوری می شود و متد پیاده سازی آن انواع داده ای که در وب کاوی استفاده می شود شامل: “محتوا “: داده واقعی در صفحات وب، داده ای که صفحه وب برای نمایش آن به کاربران طراحی شده است.که معمولاً از متن و گرافیک تشکیل شده ولی به آن محدود نمی شود.”ساختار” : داده ای که سازمان دهی محتوا را مشخص می سازد. اطلاعات ساختار درون صفحات شامل ترتیب انواع تگ های XML  یا HTML در یک صفحه داده شده می باشد و می تواند به صورت یک ساختار درختی نمایش داده شود که تگ ریشه درخت می باشد. اصلی ترین نوع از اطلاعات ساختاری بین صفحات، هایپرلینک است که یک صفحه را به دیگری مرتبط می کند.”استفاده”: داده ای که الگوی استفاده از صفحات وب را مشخص می سازد، مثل آدرس های IP، رجوع به صفحات و تاریخ و زمان دسترسی. “پروفایل کاربر” : داده ای که اطلاعات آماری درباره کاربران وب سایت فراهم می سازد که شامل داده ثبت نام و اطلاعات پروفایل مشتری می باشد.منابع داده داده های استفاده که از منابع مختلفی جمع آوری می شود، الگوهای راهبری از بخش های مختلفی از کل ترافیک وب را نمایش می دهد.  جمع آوری در سطح سرورلاگ های وب سرور یک منبع مهم برای اجرای وب کاوی استفاده از وب محسوب می شود زیرا به طور صریح رفتار مرورگری تمام مشاهده کنندگان سایت را ثبت می کند.

4-2-    ارتباط وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

  • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب، داده ها عموما غیر ساخت یافته هستند.
  • جمع آوری و مدیریت داده ها در وب دشوار است.
  • داده ها در وب تنها شامل محتوای مستندات و صفحات وب نیستند. بلکه در وب دو نوع داده اصلی دیگر نیز برای کاوش مورد استفاده قرار می گیرند. نوع اول، اطلاعات ساختاری وب است که منظور از آن پیوندهای بین صفحات وب می باشد. نوع دوم نیز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحلیل رفتار کاربر در استفاده از وب، ترجیحات و علایق وی درباره نوع و قالب اطلاعات، … بخش مهمی از وب کاوی است. در داده کاوی این دو نوع از داده وجود ندارند.

مسئله دیگری که در وب کاوی مطرح است، حفظ حریم کاربران[4] است. تکنیک های داده کاوی معمولا در یک محیط بسته به کار می روند. در حالی که تکنیک های وب کاوی در محیط باز وب انجام می شوند. بنابراین باید تضمین شود، اطلاعات شخصی و خصوصی کاربران مورد سوء استفاده قرار نمی گیرند.

مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد[10] :

  1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
  2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند
  3. تعمیم[5]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می شود.
  4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[6] و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی و … بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[7]، حذف کلمات زائد[8]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد[10] . این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها (KDD [9]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

[1] Date Mining

[2] Web Mining

[3] Web data

[4] Privacy

[5] Generalization

[6] Validation

[7] Stemming

[8] Stop Words

[9] Knowledge Discovery in Data Base

تعداد صفحه :33

قیمت : 14000تومان

بلافاصله پس از پرداخت ، لینک دانلود پایان نامه به شما نشان داده می شود

و در ضمن فایل خریداری شده به ایمیل شما ارسال می شود.

پشتیبانی سایت :        09199970560        info@arshadha.ir

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

شماره کارت :  6037997263131360 بانک ملی به نام محمد علی رودسرابی

 

11

مطالب مشابه را هم ببینید

فایل مورد نظر خودتان را پیدا نکردید ؟ نگران نباشید . این صفحه را نبندید ! سایت ما حاوی حجم عظیمی از پایان نامه های دانشگاهی است. مطالب مشابه را هم ببینید. برای یافتن فایل مورد نظر کافیست از قسمت جستجو استفاده کنید. یا از منوی بالای سایت رشته مورد نظر خود را انتخاب کنید و همه فایل های رشته خودتان را ببینید