
تشخیص هرزنامه وب به کمک تکنیک های داده کاوی
فرمت فایل دانلودی:فرمت فایل اصلی: doc
تعداد صفحات: 100
حجم فایل: 4404 کیلوبایت
نوع فایل: word (قابل ویرایش)
تعداد صفحات : 100 صفحه
چکیده:
امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.
یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.
الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.
کلید واژه:هرزنامه-تکنیک های داده کاوی