ارایه روشی ترکیبی برای تشخیص هرز نامه های فارسی با استفاده از الگوریتم های یادگیری ماشین

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 484

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITCONF02_112

تاریخ نمایه سازی: 27 اردیبهشت 1398

چکیده مقاله:

در سال های اخیر به دلیل افزایش چشم گیر میزان استفاده کاربران از نامه های الکترونیکی، مشکل ایمیل های ناخواسته بهمسیله ای جدی تبدیل شده است. ایمیل های ناخواسته که هرزنامه نامیده می شوند، معمولا باهدف کلاه برداری، سوءاستفاده ویا تبلیغات و به تعداد بسیار زیاد از سوی هرزنامه نگاران برای کاربران ارسال می گردند. هرزنامه ها علاوه بر تهدید امنیتکاربران در فضای اینترنتی، موجب هدر رفتن منابع سیستم و ایجاد ترافیک مخرب نیز می شوند؛ ازاینرو ارایه راهکارهاییجهت مقابله با آن ها ضروری به نظر می رسد. یکی از روش های شناسایی و مقابله با هرزنامه ها، طبقه بندی ایمیل ها با استفادهاز الگوریتم های یادگیری ماشین است. این الگوریتم ها از یک پیکره متنی جهت آموزش مدلی برای تشخیص هرزنامه وتخصیص ایمیل ها به یکی از دو زیرگروه هرزنامه ها و ایمیل های معتبر استفاده می کنند. محققان بسیاری، از الگوریتم هاییادگیری ماشین جهت تشخیص و فیلتر کردن هرزنامه ها استفاده کرده اند؛ اما باوجود سابقه طولانی پژوهش ها و راهکارهایارایه شده در این حوزه برای زبان انگلیسی، پردازش متن و تشخیص هرزنامه زمینه تحقیقاتی نسبتا نوینی در زبان فارسیمحسوب می شود. در این پژوهش تلاش شده است تا روشی بهینه برای تشخیص هرزنامه های فارسی با استفاده از ترکیب چهار الگوریتم یادگیری ماشین K نزدیک ترین همسایه، نایوبیز، درخت تصمیم و ماشین بردار پشتیبان ارایه شود. نتایج ارزیابی های صورت گرفته دقت 99/13% و صحت 95/4% را برای الگوریتم پیشنهادی ما نشان می دهد که حاکی از برتری این الگوریتم در مقایسه با بسیاری از روش های پیشین می باشد.

نویسندگان

بهاره لوایی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر، گروه مهندسی کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران

ماشاءالله عباسی دزفولی

دکترای تخصصی کامپیوتر، گروه مهندسی کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران