روش‌های مختلفی برای استخراج قوانین از مجموعه داده وجود دارد ازجمله آن‌ها می‌توان به روش‌های مبتنی بر شبکه‌های عصبی [۱۱] و روش‌های مبتنی بر خوشه‌بندی [۱۲] اشاره کرد. با توجه به قابلیت‌های روش‌های فرا اکتشافی برای پوشش فضای جستجو، این الگوریتم‌ها برای استخراج قوانین می‌توانند یک گزینه مناسب باشند. این روش‌ها با ایجاد یک راه حل اولیه در فضای جستجو آغاز می‌شوند و سپس به وسیله یک مجموعه قواعد جستجوی بهینه شروع می‌شود. در هر مرحله از الگوریتم جستجو همواره یک راه حل یا یک مجموعه از راه حل‌ها وجود دارند که وضعیت فعلی الگوریتم را نشان می‌دهند. برخی از روش‌های اکتشافی، روش‌های راه حل به راه حل هستند یعنی در فضای جستجوی مسئله از طریق یک راه حل به راه حل دیگر دست می‌یابند. بقیه روش‌ها بر پایه مجموعه می‌باشند که با اعمال تغییراتی در مجموعه فعلی به مجموعه جدید می‌رسیم. برای استفاده از روش‌های مکاشفه‌ای در برنامه‌های داده کاوی باید آن‌ها را با یک روش محلی ادغام کنیم. این روش‌های محلی، استراتژی کلی روش‌های مکاشفه‌ای را هدایت می‌کنند.
پایان نامه - مقاله - پروژه

۱-۳- اهداف تحقیق

هدف از روش ارائه شده کشف الگوها در میان مجموعه داده بیماران دیابتی برای کمک به پزشکان در تصمیم گیری می‌باشد رسیدن به نرخ دسته بندی و قابلیت تفسیر مطلوب از مجموعه داده با ترکیب مفهوم فازی و الگوریتم هوش جمعی بهینه‌سازی ازدحام ذرات برای استخراج قوانین فازی بدست می‌آید.

۱-۴- سوالات تحقیق

سوالاتی که در این تحقیق سعی شده به آن‌ها پاسخ دهیم به شرح زیر می‌باشد:

 

    • در داده‌های با ابعاد بالا چه روشی برای انجام دسته بندی با نرخ صحیح دسته بندی مناسب است؟

 

    • چگونه با ترکیب الگوریتم بهینه‌سازی محلی و سراسری نتایج جستجو را بهبود دهیم؟

 

    • چه الگوریتمی ارائه دهیم برای اینکه هم نرخ دسته بندی بهبود یابد و هم قابلیت تفسیر خوبی داشته باشد؟

 

    • نقش روش ترکیبی از سیستم فازی، الگوریتم ازدحام ذرات در انجام بهتر عمل دسته بندی چه خواهد بود؟

 

 

۱-۵- فرضیات مسأله

در این پایان نامه قصد داریم با کمک تکنیک دسته بندی، دانش را از مجموعه داده‌های دیابت واکشی کنیم که این دانش در قالب مجموعه قوانین فازی نمایش داده می‌شود. الگوریتم پیشنهادی با بهره گرفتن از ترکیب مکاشفه‌ی بهینه سازی ازدحام ذرات ارتقاء یافته مجموعه‌ای از قوانین فازی که بیانگر الگوی حاکم بر داده‌های مربوط به بیماران دیابتی است، استخراج خواهند شد. این الگوریتم با توجه به معیارهای مورد استفاده برای بهینه سازی پایگاه قوانین به دنبال مجموعه قوانینی می‌گردد که بهترین معیارهای ذکر شده را دارا باشد. هدف ما به دست آوردن دانش بهینه می‌باشد که با معیارهای نظیر دقت و قابلیت تفسیر مورد ارزیابی قرار می‌گیرد.
مجموعه داده دیابت بکار گرفته شده در این پایان نامه مجموعه داده Pima از دانشگاه UCI است که شامل ۷۸۶ نمونه و ۸ صفت می‌باشد. متغیر کلاس این مجموعه دو مقدار ۰ و ۱ را به خود اختصاص می‌دهد که به ترتیب بیانگر عدم ابتلا و ابتلا به این بیماری می‌باشند. که صفت‌های آن شامل: تعداد دفعات بارداری، غلظت گلوکز پلاسما، فشارخون دیاستولی بر حسب میلی لیتر جیوه، ضخامت چین پوستی یک عضله در بازوها، تزریق سرم دو ساعت، شاخص توده‌ای بدن برای بررسی چاقی، سن و متغیر کلاس (۰ و ۱) می‌باشد.

۱-۶- نوآوری‌های تحقیق

 

 

    • ارائه یک مدل ترکیبی از الگوریتم ازدحام ذرات و مجموعه فازی

 

    • ارائه یک روش جدید برای افزایش قابلیت اکتشاف در الگوریتم بهینه‌سازی ازدحام ذرات

 

    • ارائه یک روش جدید برای افزایش قابلیت بهره‌کشی در الگوریتم بهینه‌سازی ازدحام ذرات

 

    • روش کدگذاری هم‌زمان توابع عضویت و قوانین فازی

 

 

۱-۷- تعریف واژگان

داده کاوی: به استخراج اطلاعات از میان حجم انبوهی از اطلاعات که به آن کشف دانش نیز می‌گویند.
دسته‌بندی: برای تخصیص یک برچسب به مجموعه‌ای از داده‌ها که دسته‌بندی نشده‌اند، استفاده می‌شود. در دسته‌بندی یک متغیر هدف گروهی وجود دارد که به دسته‌ ها و گروه‌های از پیش تعیین شده افراز می‌گردد. سپس داده‌ها بر اساس ویژگی‌هایشان به دسته‌هایی که نام آن‌ها از قبل مشخص می‌باشد، تخصیص داده می‌شوند.
الگوریتم‌های تکاملی: الگوریتم‌هایی که جنبه‌های انتخاب طبیعی و بقای بهترین‌ها را با هم ترکیب می‌کنند. یک الگوریتم تکاملی جمعیتی که شامل ساختارهایی می‌شوند که عموماً به صورت تصادفی مقدار دهی اولیه شده‌اند و سپس این ساختارها طبق قوانین مشخصی مانند انتخاب و جهش تکامل می‌یابند. یک محیط که برای تمام اعضا مشترک است مناسب بودن و کارایی هر یک از اعضای جمعیت را مشخص می‌کند. اعضای مناسب‌تر شانس بیشتر برای انتخاب و یا ساخت مجدد توسط هر یک از عملگرهای الگوریتم را دارند.
هوش جمعی: نوعی از روش‌های تکاملی هستند که شیوه ارتباط عامل‌ها با یکدیگر از طریق محیط و به صورت غیر مستقیم است. این قابلیت اجازه می‌دهد، این الگوریتم‌ها به صورت توزیع شده بخش عظیمی از فضای جستجو را پوشش دهند و در نتیجه شانس الگوریتم برای یافتن یک راه‌حل مناسب افزایش یابد. در سطح بالاتر، گروهی از عامل‌ها که با هم برای رسیدن به اهداف مشخص رفتار خاصی را بروز می‌دهند. هوش همگانی از مجموع گروه‌های بزرگی از عامل‌های نسبتاً ساده پدیدار می‌شود. [۱۳].
استنتاج فازی: وظیفه فرایند استنتاج نگاشت ورودی‌های فازی (که از فرایند فازی سازی دریافت شدند) به پایگاه قوانین فازی و تولید خروجی فازی برای هر یک از قوانین است.

۱-۸- ساختار پایان نامه

مطالبی که در فصول بعدی ارائه خواهد شد به شرح زیر خواهد بود:

 

    • در فصل دوم مفاهیم پایه‌ای مانند داده‌کاوی، کلیات مربوط به الگوریتم‌های دسته بندی، الگوریتم‌های رایج دسته‌بندی و معیارهای ارزیابی این الگوریتم‌ها مورد بحث قرار می‌گیرد.

 

    • در فصل سوم حاوی کارهای انجام شده و تحقیقات مرتبط با موضوع می‌باشد، همچنین فضای کلی مسأله معرفی شده و الگوریتم‌های بهینه سازی ازدحام ذرات پیشنهادی برای ایجاد دسته‌بند فازی شرح داده می‌شوند.

 

    • در فصل چهارم مدل پیشنهادی برای دسته‌بندی بر روی مجموعه داده‌های دیابت اعمال و نتایج روش پیشنهادی با نتایج روش‌های معروف در این زمینه مورد مقایسه و ارزیابی قرار گرفته است.

 

فصل پنجم نیز حاوی خلاصه، نتیجه‌گیری و پیشنهادات می‌باشد.

فصل دوم – ادبیات و پیشینه تحقیق

 

۲-۱- مقدمه

دنیای مدرن در حقیقت دنیایی در محاصره حجم عظیمی از داده‌ها، چه عددی و چه انواع دیگر است. پیشرفت فناوری اطلاعات و مجهز شدن به ابزار رایانه‌ای امکان جمع‌ آوری اطلاعات در زمینه‌های مختلف را فراهم آورده و منجر به پیدایش ساختارهای داده‌ای با حجم عظیم شده است. دست پیدا کردن به اطلاعات نهفته در پایگاه داده شرکت‌ها، دانشگاه‌ها، مؤسسات دولتی و سایر مراکز نیازمند مدیریتی جدید است و با به‌کارگیری سیستم‌های سنتی این امر تحقق نمی‌یابد. ضمن اینکه با گسترش رقابت در بخش‌های مختلف علمی، اجتماعی، سیاسی و غیره زمان مورد نیاز برای دسترسی به این اطلاعات نیز اهمیت دوچندان پیدا کرده است. بنابراین نیاز به طراحی سیستم‌های هوشمندی که توانایی دست‌یابی به اطلاعات مورد نظر کاربر را در مدت زمان کوتاه و با کم‌ترین مداخله کاربر را داشته باشند کاملاً مشهود است.

۲-۲- داده‌کاوی

داده کاوی فرآیندی است که از آغاز دهه ۹۰ پا به عرصه‌ی ظهور گذاشته و با نگرشی نو به مسئله‌ی استخراج اطلاعات از پایگاه داده می‌نگرد. این فرایند یک مرحله فراتر از بازیابی ساده داده‌ها است و این اجازه را می‌دهد که دانش را در میان حجم انبوه داده‌ها کشف کرد [۱۴]. داده کاوی یک علم میان رشته‌ای است و ترکیبی از علومی نظیر پایگاه داده، تحلیل آماری، هوش مصنوعی و بینایی ماشین می‌باشد. داده کاوی یک مرحله ضروری از فرایند بزرگ‌تر کشف دانش می‌باشد که شامل مراحل زیر می‌باشد [۱۵] :
۱٫ پاک‌سازی داده‌ها: حذف نویز و داده‌های ناسازگار و نا ایستا.
۲٫ یکپارچگی داده‌ها: ترکیب انواع داده‌های پراکنده و ناهمگن از منابع مختلف.
۳٫ انتخاب ویژگی‌ها: انتخاب صفت‌های تأثیرگذار از داده‌ها.
۴٫ تبدیل داده‌ها: تبدیل یا ترکیب داده‌ها به اشکالی که برای بکار بردن در داده‌کاوی مناسب باشند.
۵٫ داده‌کاوی: روش‌های مختلف را برای استخراج الگو استفاده می‌کند.
۶٫ ارزیابی الگو: الگوهای مناسب برای ارائه دانش را بر اساس معیارهای مشخص شناسایی می‌کند.
۷٫ ارائه دانش: دانش کشف شده را با بهره گرفتن از روش‌های نمایش اطلاعات نشان می‌دهد.
شکل ۲- ۱: فرایند داده‌کاوی و کشف دانش

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...