دانلود ترجمه مقاله بررسی روش های یادگیری ماشین به فیلتر هرزنامه
1.چکیده
در این مقاله ،ما یک بازنمایی جامع از توسعه های اخیر در روش های فیلنرینگ اسپم ها با الگوریتم های یاد گیری ماشینی ارائه کرده ایم که به هر دو جنبه متنی و روش های تصویری می پردازد .به جای اینکه فیلترینگ اسپم را به عنوان یک مسئله استاندارد طبقه بندی شده در نظر بگیریم ،اهمیت در نظر گرفتن برخی ویژگی های ان مانند مفهوم جمع شدن [1] در طراحی فیلتر های جدید نشان داده ایم .دو جنبه نسبتا مهم که کمتر در این مقوله مورد بحث قرار گرفته است عبارتند از : سختی به روز کردن کلاسیفایر بر اساس نمایش کیسه کلمات [2] و یک تفاوت بزرگ بین دو مدل اخیر بیز .در نهایت ،ما نتیجه گیری کرده ایم که با این که پیشرفت های مهمی در سال اخیر صورت گرفته است ،جنبه های بسیاری هستند که هنوز کشف نشده باقی مانده اند ،به خصوص تحت تنظیمات ارزیابی واقعی تر .
کلمات کلیدی : اسپم فیلترینگ ،یادگیری انلاین ،کیسه کلمات ،بیز ،اسپم تصویر
2.مقدمه
در سال های اخیر افزایش استفاده از ایمیل منجر به افزایش مشکلات ناشی از حجمی از پیام های ایمیل ناخواسته ،که معمولا به آن اسپم گفته می شود ،گردیده است . شامل یک آزار کوچک تا یک نگرانی بزرگ ،به دلیل حجم زیاد و توهین آمیز برخی از اسن پیام ها ، اسپم ها شروع به کاهش قابلیت اعتماد ایمیل ها کردند . کاربران شخصی و کمپانی ها ،با هدر رفتن پهنای باند به دلیل دریافت این پیام ها و زمانی که به وسیله کاربران برای تفکیک انها از پیام های نرمال یا قانونی صرف می کنند ، تحت تاثیر قرار گرفتند . یک مدل تجاری بر اساس بازار اسپم ها مفید است زیرت هزینه ها برای فرستنده کم است ، بنابراین تعداد زیادی از این پیام ها می توتنند ارسال شوند ، خروجی انها حداکثر می شود ، این رفتار متجاوزانه یکی از ویژگی های اسپمر ها را بیان می کند (کسانی که پیام های اسپم را ارسال می کنند ) (Martin-Herran ,Rubrl,& Zaccour ,2008 ) . تاثیرات اقتصای اسپم ها برخی کشور ها را به سمت وضع قوانینی بر علیه انها سوق داد ( e.g ,Carpinter & Hunt ,2006 ; Hoanca ,2006;Stern,2008 ) ، اگرچه این قوانین با به وسیله این واقعیت که این پیام ها از سایر کشودها نیز ارسال می شوند محدود می شوند .(Talbot ,2008 ) .بعلاوه ، سختی های رد گیری فرستندگان واقعی این پیام ها عملکرد این قوانین را محدود می کند .علاوه بر قانون گذاری ، برخی نویسندگان تغییرات پروتکل ها و مدل های عملیاتی را نیز پیشنهاد داده اند ( در Hoanca بحث شده است ) .
روش دیگری که بکار گرفته شده است استفاده از فیلترینگ اسپم است ، که بر اساس انالیز محتوای پیام . اطلاعات اضافه ،سعی بر شناسایی پیام های اسپم دارد .زمانی که انها را شناسایی کرد بر اساس تنظیماتی که در فیلتر در نظر گرفته شده است عمل مناسب را انجام می دهد . اگر فیلتر برای یک کاربر یکتا اعمال می شود ، پس از شناسایی انرا به بک فولدر که شامل پیام هایی با برچسب اسپم است ارسال می شود ،که این کار شناسایی انهارا ساده تر می کند .اما اگر فیلتر بر روی یک سرور ایمیل که ایمیل های کاربران مختلف را اداره می کند اعمال شود ، یا ممکن است به عنوان اسپم بر چسب زده شود یا پاک شود .یک احتمال دیگر می تواند تنظیمات همکاری باشد ، به این صورت که فیلتر هایی که روی ماشین های مختلف اجرا می شوند اطلاعاتی را که از پیام های دریافتی بدست می اورند را به اشتراک بگذارند و کارایی شان را بهبود ببخشند .
[1] Concept drift
[2] Bag-of-word
فهرست
1.چکیده 6
2.مقدمه. 6
3. پیش زمینه و مباحث ابتدایی.. 9
3.1 ساختار معمول یک فیلتر اسپم. 9
3.2 نمایش… 10
3.3 Datasets. 12
3.4 معیار های کارایی.. 14
4.naive bayes. 15
5. Support Vector Machine (SVM). 18
6.شبکه های عصبی مصنوعی.. 18
7.lazy learning. 19
8. نتیجه. 19
9. مراجع. 20
a b s t r a c t
In this paper, we present a comprehensive review of recent developments in the application of machine learning algorithms to Spam filtering, focusing on both textual- and image-based approaches. Instead of considering Spam filtering as a standard classification problem, we highlight the importance of considering specific characteristics of the problem, especially concept drift, in designing new filters. Two particularly important aspects not widely recognized in the literature are discussed: the difficulties in updating a classifier based on the bag-of-words representation and a major difference between two early naive Bayes models. Overall, we conclude that while important advancements have been made in the last years, several aspects remain to be explored, especially under more realistic evaluation settings.
2.مقدمه
کاربران شخصی و کمپانی ها ،با هدر رفتن پهنای باند به دلیل دریافت این پیام ها و زمانی که به وسیله کاربران برای تفکیک انها از پیام های نرمال یا قانونی صرف می کنند ، تحت تاثیر قرار گرفتند . یک مدل تجاری بر اساس بازار اسپم ها مفید است زیرت هزینه ها برای فرستنده کم است ، بنابراین تعداد زیادی از این پیام ها می توتنند ارسال شوند ، خروجی انها حداکثر می شود ، این رفتار متجاوزانه یکی از ویژگی های اسپمر ها را بیان می کند (کسانی که پیام های اسپم را ارسال می کنند ) (Martin-Herran ,Rubrl,& Zaccour ,2008 ) . تاثیرات اقتصای اسپم ها برخی کشور ها را به سمت وضع قوانینی بر علیه انها سوق داد ( e.g ,Carpinter & Hunt ,2006 ; Hoanca ,2006;Stern,2008 ) ، اگرچه این قوانین با به وسیله این واقعیت که این پیام ها از سایر کشودها نیز ارسال می شوند محدود می شوند .(Talbot ,2008 ) .بعلاوه ، سختی های رد گیری فرستندگان واقعی این پیام ها عملکرد این قوانین را محدود می کند .علاوه بر قانون گذاری ، برخی نویسندگان تغییرات پروتکل ها و مدل های عملیاتی را نیز پیشنهاد داده اند ( در Hoanca بحث شده است ) .
این فایل ورد (word) ترجمه در 22 صفحه و فایل اصلی لاتین pdf مقاله در 17 صفحه به خدمتتون ارائه میشود. + پاورپنیت 17 اسلایدی