دانلود ترجمه مقاله با عنوان شناسایی بدون نظارت افعال مرکب فارسی
چکیده. یکی از امور مهم مربوط به عبارات چند جزئی (MWEs) شناسایی فعل مرکب است. آثار بسیاری در زمینه شناسایی بدون افعال چند جزئی در بسیاری از زبان ها وجود دارد، اما هیچ مطالعهی برجسته ای در زبان فارسی دیده نشده است. افعال چند جزئی فارسی (که افعال مرکب نامیده می شوند)، نوعی ساختار فعل سبک یا همکرد (LVC) است که دارای انعطاف پذیری نحوی است مثلا بین بخش فعل سبک و عنصر غیر کلامی فاصله نامحدودی وجود دارد. علاوه بر این، این عنصر غیر فعلی را می توان صرف کرد. این ویژگی ها کار را در فارسی بسیار مشکل ساخته است. در این مقاله، دو روش بدون نظارت پیشنهاد شده است به طور خودکار به شناسایی افعال مرکب در زبان فارسی می پردازد. در روش اول، با گسترش مفهوم اندازه گیری نقطه به نقطه اطلاعات متقابل (PMI) ، روش بوت استرپ استفاده شده است. در روش دوم، الگوریتم خوشه بندی K-means مورد استفاده قرار گرفته است. آزمایش های ما نشان می دهد که روش های ارائه شده با توجه به استاندارد سازی، به نتایجی فراتر از آغاز مطالعه که از اندازه گیری PMI استفاده شده بود، دست یافته است.
واژگان کلیدی: اصطلاح چند جزئی، ساختار افعال سبک، شناسایی بدون نظارت، روش بوت استرپ، K-mean، فارسی.
1- مقدمه
کالوکیشن[1] یا عبارت یا مجموعه ” یک ترکیب خودسرانه و مکرر کلمات است ” [1] و یا اغلب به صورت یک توالی از کلمات مجاور به نظر می رسد [ 2 ] . در رفرنس[ 3 ] ، کالوکیشن ها به دو دسته اصلی طبقه بندی می شوند :
1 ) نظری، و 2 ) تجربی . عبارت های تجربی آن هایی هستند که ناگهانی ایجاد می شوند؛ در حالی که ، عبارت های نظری در زبان شناسی شناخته شده هستند. کالوکیشن از عبارات لغوی محدود شده ( مانند چای غلیظ[2] ) ، عبارت های فعلی (مانند مراقبت کردن [3]) ، اصطلاحات فنی (به عنوان مثال نخست وزیر [4]) ، و اسامی خاص (به عنوان مثال لس آنجلس ) تا ضرب المثل هایی (مانند جدا کردن لپه ها از هم= راز دیگران را افشا کردن[5] ) گسترده است [ 4 ] . در رفرنس [ 4 ] ، پنج نوع n- گرم[6] (دنباله زبان شناسی) به عنوان ، کالوکیشن درست در نظر گرفته شد : 1 ) عبارات سهام (مانند: مشکل عمده [7]) ، 2 ) نام های هویتی (مانند قلعه پراگ ) ،3 ) پشتیبانی ساختار فعل (به عنوان مثال تصمیم گیری ) ، 4 ) اصطلاحات فنی (به عنوان مثال نخست وزیر ) ، و 5 ) بیان ضرب المثل (به عنوان مثال لگد کردن سطل= مُردن[8] ) . یک اصطلاح چند جزئی ( ( MWE به عنوان یک نوع کالوکیشن که به یک مفهوم واحد اشاره دارد، شناخته شده است [ 5 ] که معنی کلی آن، اغلب تابعی از معنی اجزای تشکیل دهنده آن نیست [ 6 ] و متفاوت است [ 7 ] . با توجه به طرز فکر و شیوه خاص هر نویسنده در معنا، MWEs عبارات چند کلمه ای متفاوت در نظر گرفته شود [9][ 8 ] . یکی از وظایف اصلی در NLP تشخیص MWEs است . در رفرنس [ 9 ] اظهار شده است که MWE یکی از دو چالش عمده در NLP می باشد. علاوه بر این، وقوع MWEs در زبان واقعی بسیار شایع است [ 9 ] . از این رو، مشکل شناسایی آن ها باید به منظور بهبود زبان شنیداری رفع شود.
اکثر MWEs عبارات تحت الفظی مانند ساختارهای فعلی (LVC)، ساختارهای افعال اسمی (VNC)، و ساختارهای اجزای افعال سبک (VPC) [10] می باشند. VNCs یا اصطلاحی یا تحت اللفظی هستند[7]. ضرب المثل ها به عنوان سلسله ای از کلمات تعریف می شوند که از لحاظ معنایی منحصر به فرد و غیر ترکیبی هستند [11]. VPCs از یک فعل اصلی و یک یا تعدادی اجزای ضروری از قبیل حروف اضافه (به عنوان مثال: آرایش کردن[10])، صفت (برای مثال: کوتاه کردن[11]) و یا فعل (مثلا: بیا برویم[12]) تشکیل شده است [12]. افعال سبک دسته ای از افعالند که به طور مستقل فاقد معنا جهت به کار گیری به عنوان گزاره هستند و برای تکمیل معانی آنها به برخی از اسم های خبری و یا صفت نیاز است[13]. یک LVC از یک فعل سبک و یک پیشوند فعلی (در بیشتر موارد، یک اسم) ساخته شده است و معنای آن غیر ترکیبی است. علاوه بر این، پیشوند فعلی (بخش غیر فعلی) یک معنی لفظی یا گزاره ای دارد و بخش فعلی فاقد معانی تحت اللفظی است [14]. چالش برانگیز ترین ماهیت LVC تنوع معنایی لغوی آن، یعنی چند معنایی بودن آن است؛ که در آن بخش فعلی با توجه به زمینه متن معانی مختلفی می تواند داشته باشد [6].
[1] collocation
[2] strong tea
[3] look after
[4] prime minister
[5] spilt the beans
[6] n-grams
[7] major problem
[8] kick the bucket
[9] (مترجم: معنای کامل عبارت های چند کلمه ای از معنای اجزای تشکیل دهنده آن بدست می آید)
[10] make up
[11] cut short
[12] let go
Unsupervised Identification of Persian Compound Verbs
Mohammad Sadegh Rasooli1, Heshaam Faili2, and Behrouz Minaei-Bidgoli1
1 Department of Computer Engineering, Iran University of Science and Technology
{rasooli@comp., b_minaei@}iust.ac.ir
2 School of Electrical & Computer Engineering, Tehran University
hfaili@ut.ac.ir
Abstract. One of the main tasks related to multiword expressions (MWEs) is
compound verb identification. There have been so many works on unsupervised
identification of multiword verbs in many languages, but there has not been any
conspicuous work on Persian language yet. Persian multiword verbs (known as
compound verbs), are a kind of light verb construction (LVC) that have syntactic flexibility such as unrestricted word distance between the light verb and the
nonverbal element. Furthermore, the nonverbal element can be inflected. These
characteristics have made the task in Persian very difficult. In this paper, two
different unsupervised methods have been proposed to automatically detect
compound verbs in Persian. In the first method, extending the concept of
pointwise mutual information (PMI) measure, a bootstrapping method has been
applied. In the second approach, K-means clustering algorithm is used. Our experiments show that the proposed approaches have gained results superior to the
baseline which uses PMI measure as its association metric.
Keywords: multiword expression, light verb constructions, unsupervised identification, bootstrapping, K-means, Persian.
این فایل ورد (word) ترجمه در 16 صفحه و فایل اصلی لاتین pdf مقاله در 13 صفحه به خدمتتون ارائه میشود.