پژوهش حاضر با هدف ارائه روشی برای سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه ­بندی انجام شد.

مجموعه داده­ های مربوط به پایان­نامه­ ها و رساله­ ها شامل 2943 تحقیق به عنوان جامعه آماری در نظر گرفته شد. جمعآوری داده­ها از مجموعه دادههای­ مربوط به تحقیقات علمی که شامل 5000 پژوهش در قالب فایل اکسل بود، انجام شد.

در این پژوهش پس از تبدیل داده­ هـا به قالب ساخت­ یافتـه، با استفاده از اعمال پیش ­پردازش عملیات پردازش صورت گرفت. در مرحله پردازش از تکنیک خوشه ­بندی جهت ارائه الگوریتم پیشنهادی در راستای سازماندهی اسناد متنی فارسی بهره گرفته شد. این الگوریتم با بهبود الگوریتم K-means در جهت خوشه­ بندی اسناد ارائه شد.

نتایج حاصل از ارزیابی نشان داد الگوریتم پیشنهادی بر اساس معیارهای خارجی نسبت به دو الگوریتم K-means و K-means++ در کیفیت خوشه­ بندی اسناد تأثیر مثبتی داشت. به طوری که تحقیقات هر رده تعیین­ شده در خوشه موضوعی مرتبط دارای توزیع یکنواختی شد، و منجر به حصول هدف پژوهش حاضرگردید. در جداول رده/ خوشه­ حاصل از دو الگوریتم K-means و K-means++ توزیع غیریکنواخت تحقیقات در خوشه­ ها مشاهده شد. بنابراین، ارزیابی بر اساس معیار­های داخلی متأثر از تراکم متفاوت خوشه ­ها و شباهت بین خوش ه­ای بود. حجم دیتاست نیز متأثر از راهکارهای­ پیشنهادی برای انتخاب دیتاست نهایی و فرایند پژوهش نبود، بنابراین الگوریتم پیشنهادی برای ابعاد بالای ویژگی نیز مناسب عمل می­کند.

نویسندگان: الهام یلوه، یعقوب نوروزی، اشکان خطیر