مروری بر رهیافت های ساده سازی خودکار متن و امکان سنجی کاربست آنها در پردازش متون اسلامی

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 239

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IISC01_006

تاریخ نمایه سازی: 22 آذر 1400

چکیده مقاله:

در زمینه پردازش زبان طبیعی، ساده سازی متن به عنوان روشی برای تغییر متن زبان طبیعی به صورتواژگانی و نحوی تعریف شده است، به گونه ای که ساختار و دستور زبان متن خروجی به طرز قابل توجهیساده شده و فهم پذیری و خوانایی آن بهبود یابد، در حالی که معنای اصلی و اطلاعات متن اولیه حفظ شود.از ساده سازی متن می توان در کاربردهای متنوعی مانند یک ابزار پیش پردازش در خط لوله وظایف پردازشزبان طبیعی استفاده کرد.از طرف دیگر، متون دینی عموما جملات طولانی و پیچیده و واژگان ناآشنایزیادی دارند. پردازش خودکار چنین متن هایی برای ابزارهای پردازش زبان طبیعی موجود بسیار دشواراست. وجود یک الگوریتم ساده سازی متن، به عنوان یک ابزار پیش پردازشی می تواند عملکرد الگوریتم هایدیگر روی متون دینی را به میزان قابل توجهی بهبود بخشد. با این وجود، تاکنون هیچ الگوریتم ساده سازیمتنی برای متون اسلامی به زبان های عربی کلاسیک و فارسی ارائه نشده است.بنابراین، لازم است قبل از ارائه چنین الگوریتمی، دانش موجود در این حوزه به طور کامل مورد مطالعه قرارگیرد تا نقطه شروع اولیه مناسب برای انجام کار پژوهشی جهت ارائه چنین الگوریتمی منطقی تر انتخابشود. در این پژوهش به این موضوع می پردازیم و سعی می کنیم به این پرسش پاسخ دهیم که کدام یک ازرهیافت های موجود در مرز های دانش، احتمالا برای بومی سازی در زبان های فارسی و عربی و جهت استفادهدر پردازش متون مذهبی مناسب تر است. در این بررسی، ما با تمرکز روی رویکردها، مهم ترین مطالعاتحوزه ساده سازی متن را از میان بیش از ۳۰۰ پژوهش موجود در این زمینه در سه دهه اخیر شناساییکرده ایم. همچنین یک طبقه بندی را برای این رویکردهای مختلف پیشنهاد می کنیم و مهم ترین مطالعاترا در هر دسته بندی مشخص م یکنیم. در انتها پیشنهاد می دهیم که با توجه به بررسی های انجام شده،احتمالا روش های بدون ناظر بر پایه شبکه های عصبی، بهترین نقطه ورود پژوهشگران برای انجام مطالعاتو ارائه الگوریتم های ساده ساز متون برای زبان های فارسی و عربی کلاسیک خواهد بود.

نویسندگان

بهروز جان فدا

دانشجو، کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار

سیدعلی حسینی

دکترا؛ پژوهشگر پسادکتری در رشته هوش مصنوعی، گرایش پردازش دانش

بهروز مینایی بیدگلی

دانشیار، (دانشگاه علم وصنعت ایران) دکتری هوش مصنوعی