داده کاوی: Data mining
کمپانی های زیادی از ابزارهای داده کاوی بهره گرفته اند تا بتوانند داده های حجیم و گسترده را مورد تجزیه و تحلیل قراد داده و روندهای موجود را بیابند. به عنوان نمونه فروشگاه بزرگ وال-مارت یکی از بزرگترین فروشگاههای زنجیره ای اقدام به ایجاد پایگاه عظیمی از داده ها به حجم 24ترابایت (ترلیون بایت)نموده است.با استفاده از این پایگاه وال _مارت قادر است تا بطور همزمان اقدام به گردآوری و تحلیل روند فروش کالا در2900شعبه فروش نماید.شاید جالب توجه باشد که بکمک ابزار هوشمندداده کاوی یا اکتشاف روند داده ها,فروشگاه فوق می تواند اطلاعات کلیه خریدها در سطوح هر بخش از فروشگاه, موجودی کالا درهر قفسه , موجودی انبار, پیش بینی فروش , کاهش یا افزایش قیمت ها , کالاهای مرجوعی توسط مشتریان و…را گردآوری نموده ودر اختیار مدیران فروشگاه , توزیع کنندگان و مشتریان خود قرار می دهد.این فناوری نرم افزاری قدرت مانور بی نظیری برای وال _ مارت ایجاد کرده است تا بتواند کالاهای مناسب را در کوتاهترین زمان به هر یک از فروشگاههای متقاضی برساند.
درخت تصمیم گیری
درخت تصمیم گیری یکی از ابزارهای قوی و متداول برای دسته بندی و پیش بینی می باشد. درخت تصمیم گیری برخلاف شبکه های عصبی به تولید قانون می پردازد. یعنی درخت تصمیم گیریپیش بینی خود را در قالب یکسری قوانین توضیح می دهد در حالیکه در شبکه های عصبی تنها پیش بینی بیان می شود و چگونگی آن در خود شبکه پنهان باقی می ماند. همچنین در درخت تصمیم گیری بر خلاف شبکه های عصبی لزومی ندارد که داده ها لزوما بصورت عددی باشند.
بعضی موارد وجود دارد که تنها درستی دسته بندی و پیش بینی مهم است و لزوما توضیحی برای پیش بینی انجام شده لازم نمی باشد. بعنوان مثال می توان یک شرکت مخابراتی را در نظر گرفت که می خواهد ببیند کدامیک از مشتریانش به خدمت جدیدی که ارائه می شود پاسخ مثبت می دهند. برای این شرکت درستی پیش بینی مهم است و شاید علت و توضیحی در مورد پیش بینی نیاز نداشته باشد. در حالیکه یک شرکت که قصد بازاریابی و کسب یکسری مشتری جدید دارد علاقه مند است که بداند که ویژگیهای مشتریانی که احتمالا به محصول این شرکت پاسخ می دهند چیست. در واقع با اطلاع ازاین ویژگیها این شرکت می تواند سراغ افرادی برود که با احتمال بیشتری به محصول این شرکت پاسخ مثبت می دهند. بعبارت دیگر این شرکت نیاز به یکسری قانون برای انجام بهتر فعالیت بازاریابی خود دارد. یکی از این قانونها می تواند بصورت زیر باشد:
“افراد متاهل که از خود خانه دارند و درآمدی بالای 2000 دلار درماه دارند به این محصول پاسخ مثبت می دهند.”
درچنین مواقعی است که احتمالا درخت تصمیم گیری بر شبکه های عصبی ترجیح داده می شود.
همچنین در مورد خصوصیات درخت تصمیم گیری می توان به موارد زیر نیز اشاره نمود:
- درخت تصمیم گیری هر داده را بصورتی در هر گروه تقسیم بندی می کند که هیچ داده ای حذف نمی شود (داده ها در گروه مادر با مجموع داده ها در شاخه های ایجاد شده برابر است).
- این تکنینک در بازاریابی و هنگامی که بدنبال مشتریانی هستیم که به محصول ما پاسخ مثبت می دهند بسیار مفید و استفاده از آن آسان می باشد.
- فهمیدن مدل ایجاد شده توسط درخت تصمیم گیری آسان می باشد. بعبارتی با اینکه ممکن است الگوریتمهایی که درخت را ایجاد می کنند چندان ساده نباشند ولی فهمیدن نتایج آن آسان می باشند.
- دسته بندیهایی که در درخت تصمیم گیری ایجاد می شوند از روی شباهت داده های ذخیره شده در پارامترهای پیش بینی کننده می باشد.
4-3-1) درخت تصمیم گیری چگونه کار می کند؟
کسانی که بازی بیست سوالی را انجام داده اند برای درک درخت تصمیم گیری کار سختی در پیش ندارند. در این بازی یک نفر چیز خاصی را در ذهن خود در نظر می گیرد و شخص دیگر سعی می کند با انجام یک سری سوالات که جواب آنها بلی یا خیر است چیز مورد نظر شخص اول را شناسایی کند.
در درخت تصمیم گیری نیز یکسری سوال وجود دارد و با مشخص شدن پاسخ هر سوال یک سوال دیگر پرسیده می شود. اگر سوالها درست وخوب پرسیده شوند یکسری کوتاه از سوالات برای پیش بینی دسته رکورد جدید کافی می باشد.
درخت تصمیم گیری به این صورت است که یک گره ریشه در بالای آن کشیده شده و برگهای آن در پایین می باشند. یک رکورد در گره ریشه وارد می شود و در این گره یک تست (آزمون) صورت می گیرد تا معلوم شود که این رکورد به کدامیک از گره های فرزند (شاخه پایین تر) می رود. معمولا روشهای مختلفی برای انتخاب این آزمون اولیه وجود دارد ولی هدف همه آنها یکی است: انتخاب روشی که بهترین جداسازی را در کلاسهای هدف انجام دهد. این فرآیند آنقدر ادامه پیدا می کند تا رکورد به گره برگ برسد. تمام رکودهایی که به یک برگ از درخت می رسند در یک کلاس قرار می گیرند. همچنین برای رسیدن از ریشه به یک برگ تنها یک راه وجود دارد وآن راه در واقع بیان قانونی است که برای دسته بندی رکوردها ایجاد شده است. ممکن است تعداد زیادی برگ وجود داشته باشد که همگی یک کلاس داشته باشند ولی هر برگ برای قرار گرفتن در دسته مورد نظر علت متفاوتی دارد. برای مثال درختی که برای دسته بندی میوه ها بر اساس رنگ بکار رفته است سیب، گوجه و توت فرنگی همگی دارای پیش بینی قرمز می باشند و در دسته مربوط به این رنگ قرار می گیرند ولی درجه اطمینان هر یک متفاوت است زیرا سیبهای سبز، گوجه های زرد و توتها سیاه نیز وجود دارند.
اثر بخشی درخت ایجاد شده باید اندازه گیری شود. برای اینکار از یک مجموعه رکوردها یا داده های آزمایشی استفاده می شود که متفاوت با داده های اولیه که درخت را ایجاد کرده اند می باشد. معیاری که اندازه گیری می شود هم عبارت است از درصد داده هایی که درست دسته بندی می شوند و دسته پیش بینی شده با دسته واقعی آنها یکسان است. ما باید همچنین کیفیت شاخه های ایجادشده را نیز مد نظر داشته باشیم. هرراه ایجادشده از ریشه به یک برگ معادل یک قانون است که بعضی قانونها بهتر از سایر قانونها می باشند. در واقع بعضی اوقات است که بریدن برخی شاخه های ضعیف تر درخت باعث بهبود قدرت پیش بینی درخت می شود
در واقع الگوریتم درخت تصمیم گیری با انتخاب آزمونی شروع می شود که بهترین جداسازی را برای دسته ها انجام دهد. در مراحل بعدی درخت هم همین کار برای گره های بعدی با داده های کمتر صورت می گیرد تا بهترین قانونها حاصل شود. درخت آنقدر بزرگ می شود تا دیگر نتوان جداسازی بهتری برای داده های گره انجام داد.
مهمترین هدف از دسته بندی (classification and regression ) بدست آوردن مدلی برای
پیش بینی می باشد.بدین منظور از مجموعه ای به نام training Databaseکه مجموعه ای از
متغییرها و رکوردهاست استفاده می کنیم .
فرمت فایل: Word (قابل ویرایش) |
تعداد صفحات: 31 / زبان فارسی |
+
فرمت فایل: Powerpoint (قابل ویرایش) |
تعداد صفحات: 66 / زبان انگلیسی |
حجم: 2.57 مگابایت |