دانلود ترجمه مقاله مقایسه و بررسی روش های خوشه بندی اسناد(داکیومنت)


چکیده

این مقاله به بررسی نتایج حاصل از مطالعات تجربی روش های متداول خوشه بندی اسناد(داکیومنت) می پردازد. به خصوص در این مقاله، دو روش اصلی خوشه بندی داکیومنت به نام های خوشه‌بندی سلسله مراتبی متراکم و روش k-mean را بررسی و مقایسه می کنیم. (در روش k-means از الگوریتم استانداردk و متغیر آن وbisecting K-means استفاده کرده ایم). خوشه بندی سلسله مراتبی اغلب به عنوان روش خوشه بندی با کیفیت بهتر به تصویر کشیده می شود، اما به دلیل پیچیدگی های زمانی کوادراتیک یا درجه دوم آن محدودیت هایی هم دارد. در مقابل، روش k-means و متغیرهای آن دارای پیچیدگی های زمانی بصورت خطی است اما خوشه های درجه دوم و پایین تری بوجود می آورد. برخی مواقع، روش سلسله مراتبی و k-means به منظور دست یابی به بهترین روش با هم ترکیب می شوند. با این حال، نتایج بدست آمده از تحقیق ما حاکی از این است که روش k-meansbisectingبهتر از استاندارد k-means است و بهتر و مناسب تر از روش سلسله مراتبی است که ما معیارهای ارزیابی خوشه را آزمایش کردیم. توضیحاتی برای این نتایج بدست آمده داریم که مبتنی بر تجزیه و تحلیل جزئییات الگوریتم خوشه بندی و ماهیت داده های داکیومنت ارائه شده است.

1)     پیش زمینه و انگیزه و هدف تحقیق

خوشه بندی اسناد(داکیومنت) برای استفاده در حوزه های متعددی ازجمله معنای متن و بازیابی اطلاعات بررسی شده است. درابتدا، روش خوشه بندی اسناد(داکیومنت) در جهت بهبود دقت و یا فراخوان در سیستم های بازیابی اطلاعات [Rij79, Kow97] بررسی شد و روشی کارآمد برای این منظور مشخص گردید[BL85]. به تازگی خوشه بندی به منظور استفاده در مرور یک مجموعه ای از اسناد(داکیومنت) ارائه می شود [CKPT92] و یا در سازماندهی نتایج که بواسطه یک موتور جستجو برای کاربر مفید واقع می شود. [ZEMK97]. خوشه بندی اسناد(داکیومنت) همچنین برای تولید خودکار خوشه های سلسله مراتبی استفاده شده است [KS97]. (نسل خودکار رده بندی اسناد(داکیومنت) وب همانند  موارد تولیدی یاهو (www.yahoo.com) اغلب به عنوان یک هدف ذکر شده است.). یک روش تاحدودی متفاوت هم به این صورت است که خوشه های طبیعی در رده بندی سند در حال حاضر موجود (یاهو) وجود دارد. [AGY99]. و پس از آن از این خوشه ها به منظور تولید یک رده بندی سند موثر برای اسناد(داکیومنت) جدید استفاده می شود. خوشه بندی سلسله مراتبی متراکم و روش k-means دو روش خوشه است که معمولا برای خوشه بندی سند استفاده می شود. خوشه بندی سلسله مراتبی گرچه کندتر است اما اغلب از روش k-means بهتر و کاربردی تر است.  مطالعه شناخته شده گسترده ای در این زمینه وجود دارد که در [DJ88] بتفصیل بیان شده است، این مباحث نشانگر این است که خوشه بندی سلسله مراتبی نسبت به k-means ارجح تر است، گرچه باید به این نکته توجه داشته باشید که این نتایج از طریق داده های غیر داکیومنت بدست آمده است. در حوزه داکیومنت، پراکندگی / جمع آوری [CKPT92]، سیستم بازبینی داکیومنت مبتنی بر خوشه بندی با استفاده از یک روش ترکیبی که شامل هر دو روش خوشه بندی ذکر شده است انجام می گیرد.K-means روشی است که بعلت کارآمدی آن مورد استفاده قرار می گیرد و روش خوشه بندی سلسله مراتبی متراکم به دلیل کیفیت آن مورد توجه است. تحقیقات اخیر در ایجاد سلسله مراتب اسناد(داکیومنت) [LA99] استفاده از برخی از تکنیک های خوشه بندی [CKPT92] را ملزم ساخته و نتیجه این تحقیقات نشان می دهد که خوشه بندی سلسله مراتبی از روش K-means بهتر است. اگرچه این نتایج تنها در مورد یک مجموعه داده واحد کاربرد دارد و یکی ازنتایج عمده ای تحقیق ما محسوب نمی شود.

 

A Comparison of Document Clustering Techniques
Michael Steinbach George Karypis Vipin Kumar
Department of Computer Science and Egineering,
University of Minnesota
Technical Report #00-034
{steinbac, karypis, kumar@cs.umn.edu}
Abstract
This paper presents the results of an experimental study of some common document
clustering techniques. In particular, we compare the two main approaches to document
clustering, agglomerative hierarchical clustering and K-means. (For K-means we used a
“standard” K-means algorithm and a variant of K-means, “bisecting” K-means.) Hierarchical
clustering is often portrayed as the better quality clustering approach, but is limited because of its
quadratic time complexity. In contrast, K-means and its variants have a time complexity which
is linear in the number of documents, but are thought to produce inferior clusters. Sometimes
K-means and agglomerative hierarchical approaches are combined so as to “get the best of both
worlds.” However, our results indicate that the bisecting K-means technique is better than the
standard K-means approach and as good or better than the hierarchical approaches that we tested
for a variety of cluster evaluation metrics. We propose an explanation for these results that is
based on an analysis of the specifics of the clustering algorithms and the nature of document
data.

این فایل ورد ترجمه در 17 صفحه و فایل اصلی لاتین pdf مقاله در 20 صفحه به خدمتتون ارائه میشود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *