بهینه‌سازی سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه‌بندی-بلاگ

پژوهش حاضر با هدف ارائه روشی برای سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه بندی انجام شد.

مجموعه داده های مربوط به پایاننامه ها و رساله ها شامل 2943 تحقیق به عنوان جامعه آماری در نظر گرفته شد. جمعآوری دادهها از مجموعه دادههای مربوط به تحقیقات علمی که شامل 5000 پژوهش در قالب فایل اکسل بود، انجام شد.

در این پژوهش پس از تبدیل داده هـا به قالب ساخت یافتـه، با استفاده از اعمال پیش پردازش عملیات پردازش صورت گرفت. در مرحله پردازش از تکنیک خوشه بندی جهت ارائه الگوریتم پیشنهادی در راستای سازماندهی اسناد متنی فارسی بهره گرفته شد. این الگوریتم با بهبود الگوریتم K-means در جهت خوشه بندی اسناد ارائه شد.

نتایج حاصل از ارزیابی نشان داد الگوریتم پیشنهادی بر اساس معیارهای خارجی نسبت به دو الگوریتم K-means و K-means++ در کیفیت خوشه بندی اسناد تأثیر مثبتی داشت. به طوری که تحقیقات هر رده تعیین شده در خوشه موضوعی مرتبط دارای توزیع یکنواختی شد، و منجر به حصول هدف پژوهش حاضرگردید. در جداول رده/ خوشه حاصل از دو الگوریتم K-means و K-means++ توزیع غیریکنواخت تحقیقات در خوشه ها مشاهده شد. بنابراین، ارزیابی بر اساس معیارهای داخلی متأثر از تراکم متفاوت خوشه ها و شباهت بین خوش های بود. حجم دیتاست نیز متأثر از راهکارهای پیشنهادی برای انتخاب دیتاست نهایی و فرایند پژوهش نبود، بنابراین الگوریتم پیشنهادی برای ابعاد بالای ویژگی نیز مناسب عمل میکند.

نویسندگان: الهام یلوه، یعقوب نوروزی، اشکان خطیر

دسترسی به اصل مقاله