دانلود کتاب داده کاوی برای برنامه نویسان


دانلود کتاب داده کاوی برای برنامه نویسان (هنر باستانی شمارش)

کتاب داده کاوی برای برنامه نویسان (هنر باستانی شمارش) نوشته ران زاچارسکی و ترجمه مسعود کاویانی

داده‌کاوی، به مفهوم استخراج اطلاعات نهان در حجم عظیمی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود. طی چند سال اخیر، علم داده‌کاوی (Data Mining) توانسته به یکی از حوزه‌های محبوب علاقه‌مندان به حرفه برنامه‌نویسی و دیتابیس تبدیل شود؛ تا جایی که بسیاری از کسب و کارها حاضرند هزینه بسیاری را بر روی داده‌کاوی سرمایه‌گذاری کنند.

سرفصل های کتاب داده کاوی برای برنامه نویسان :

فصل ۱: مقدمه

  • به قرن ۲۱ خوش آمدید
  • پیدا کردن چیزهای مرتبط
  • ولی چگونه این چیزها را پیدا کنیم؟
  • فقط این چیزها نیست
  • تِراماینینگ چیزِ خیلی لجیبی نیست
  • ساختار این کتاب
  • با خواندن و تمام کردنِ این کتاب چه چیزی یاد خواهید گرفت
  • اصلاً چرا؟ چرا چیزهای موجود در این کتاب مهم هستند؟
  • منظور از هنر باستانی شمارش در عنوان این کتاب چیست؟

فصل ۲: سیستم های توصیه گر

  • فاصله مَنهَتَن (Manhattan Distance)
  • فاصله اقلیدسی (Euclidean Distance)
  • تئوریِ فیثاغورث
  • تفکرِ چند بُعدی (N-Dimensional Thinking)
  • یک عیب اساسی
  • یک عمومی سازی (Generalization)
  • نمایش داده ها در زبان پایتون
  • کد پایتون برای محاسبه ی فاصله منهتن
  • یک شرمساری برای کاربران
  • ضریب همبستگی پیرسون
  • آخرین فرمول شباهت کسینوسی
  • از کدام معیار شباهت استفاده کنیم؟
  • K نزدیکترین همسایه
  • یک کلاس (Class) توصیه گر با زبان پایتون
  • یک مجموعه داده جدید

فصل ۳: پایش بر اساس اقلام

  • امتیازدهی صریح
  • امتیازدهی ضمنی
  • مشکلات امتیازدهیِ صریح
  • مشکل موفقیت
  • پایشِ مبتنی بر کاربر
  • پایش مبتنی بر اقلام
  • شباهت کسینوسیِ تعدیل شده
  • الگوریتم شیبِ یک
  • حالا نوبت کد پایتون است
  • الگوریتمِ شیبِ یکِ وزن دارد
  • مجموعه داده MovieLens

فصل ۴: طبقه بندی

  • اهمیتِ انتخابِ مقادیرِ مناسب
  • یک مثال ساده
  • برویم به سراغ کدهای پایتون
  • پاسخ به سوالِ چرا؟
  • مشکل در مقیاس های متفاوت
  • نرمال سازی
  • مشکلِ استفاده از امتیازِ استاندارد
  • امتیازِ استانداردِ اصلاح شده
  • نرمال سازی را انجام بدهیم یا نه؟
  • برگردیم به مثالِ پاندورا
  • کد پایتون برای طبقه بندیِ نزدیک ترین همسایه
  • مسئله چه ورزشی؟
  • داده های آزمون
  • کد پایتون
  • خطاهای Assertion و تابع Assert در پایتون
  • مجموعه داده گل های زنبق
  • مسئله مایل به ازای هر گالن
  • ته مانده فصل

فصل ۵: کمی بیشتر در مورد طبقه بندی

  • مجموعه آموزشی و مجموعه آزمون
  • اعتبارسنجیِ متقابلِ ۱۰ تکه ای
  • مثال اعتبارسنجیِ متقابلِ ۱۰ تکه ای
  • روش کنار گذاشتنِ یکی
  • معایب روشِ کنار گذاشتنِ یکی
  • لایه بندی
  • ماتریس اغتشاش
  • یک مثال برنامه نویسی
  • فرآیند اعتبارسنجیِ متقابلِ ۱۰ تکه ای
  • آمار کاپا
  • بهبودِ الگوریتمِ نزدیک ترین همسایه
  • K نزدیک ترین همسایه
  • یک مجموعه داده جدید و یک چالش
  • داده های بیشتر، الگوریتم های بهتر و یک اتوبوسِ خراب

فصل ۶: بِیز ساده

  • یادگیری چند عبارت
  • کارتِ خرید ماکروسافت
  • تئوریِ بیز
  • چرا به تئوری بیزین احتیاج داریم؟
  • بیزین ساده
  • مثالِ محصولات i100 و i500
  • حالا این کارها را در پایتون انجام می دهیم
  • جمهوری خواهان در مقابل دموکرات ها
  • تخمین احتمالات
  • حل مشکل
  • رفع یک ابهام
  • روش ساخت طبقه ها و دسته بندی
  • روش ۲: توزیع های گوسی
  • انحراف استانداردِ جمعیت و انحراف استاندارد نمونه
  • یک سری نکات برای پیاده سازی
  • پیاده سازی پایتون
  • فاز یادگیری

فصل ۷: پردازش متون بدون ساختار

  • یک سیستم خودکار برای تشخیص مثبت یا منفی بودن متون
  • فاز آموزش
  • فاز طبقه بندی بیز ساده
  • مجموعه داده متون خبری
  • کد بزنید استایل پایتونی
  • بیز ساده و تحلیل احساسات

فصل ۸: خوشه بندی

  • خوشه بندی k-means
  • خوشه بندی سلسله مراتبی
  • خوشه بندی Single-linkage
  • خوشه بندی Complete-linkage
  • خوشه بندی Average-linkage
  • کُد پایتون برای یک الگوریتم خوشه بندی سلسله مراتبی
  • خواندن داده ها از فایل
  • ایجاد صف اولویت اولیه
  • مشکل مسافت های یکسان و این که با این داده ها چه کار کنیم؟
  • یک نکته دیگر در مورد فاصله های یکسان
  • تپه نوردی
  • معیار SSE و پراکندگی
  • وقت کد زدنه
  • k-means++
  • انرون
  • تحلیل لینک
فرمت فایل: Pdf
تعداد صفحات: 449
حجم: 19.7 مگابایت

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *