دانلود مقالات و پایان نامه ها در مورد تدوین ...

ارسال شده در 16 آذر 1400 توسط نجفی زهرا در بدون موضوع

۳-۷-۱-۲- شناخت داده‌ها
در مرحله قبل درک کلی برای تحقیق‌گر حاصل گردید. این مرحله به منظور اجتناب از مسائل غیر‌منتظره در طول مرحله (فاز آماده‌سازی داده‌ها) بسیار حیاتی است. به طوری که طولانی‌ترین مرحله از یک پروژه داده‌کاوی تلقی می‌شود. جهت انجام این مرحله باید به پرسش‌های زیر پاسخ داده شود:
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

- کدامیک از معیارها (ستون‌ها) از بانک داده، مناسب‌تر به نظر می‌رسند؟ (دراین مرحله می‌توان از نظریات خبرگان بهره برد)

- کدامیک از معیارها بی‌ربط به ‌نظر می‌رسند و قابلیت حذف شدن دارند؟

- آیا تعداد داده‌ها برای تعمیم نتایج یا ایجاد یک پیش‌گویی دقیق، کافی است؟

- آیا معیارهای فراوانی برای انتخاب روش مدل‌سازی وجود دارد؟

- آیا منابع داده گوناگونی را باهم ادغام می‌کنید؟ اگر چنین است، آیا ناحیه‌ای که در هنگام ادغام، مساله را پیچیده کند وجود دارد؟

- آیا توجه کرده‌اید که چگونه مقادیر گمشده در هریک از منابع داده توزیع شده‌اند؟

درواقع دراین مرحله پیش از آن که بتوان کاری انجام داد باید با توجه به درک صورت گرفته از اهداف و وضعیت موجود، شناخت صحیحی از وضعیت داده‌ها به‌دست آورد. برای این منظور لازم است داده‌های مورد نیاز جمع‌ آوری و تهیه شوند و بررسی‌های لازم از جهت قابل قبول بودن حجم داده‌های سالم و امکان چشم‌پوشی از موارد داده‌های گمشده و بی‌مقدار یا داده‌های ناقص، صورت پذیرد. بنابراین دراین بخش با مراجعه به خبرگان و مطالعه تحقیق‌های قبلی داده‌های مورد نیاز از پایگاه‌داده اصلی استخراج شد.
۳-۷-۱-۳- آماده سازی داده‌ها
برای انجام این گام کافی است به موارد زیر توجه شود:

- مجموعه داده‌ها یا رکوردهای ادغام شده

- انتخاب یک نمونه زیرمجموعه از داده‌ها

- رکوردهای انباشته

- استنتاج معیارهای جدید

- مرتب‌سازی داده‌ها برای مدل‌سازی

- حذف یا جایگزینی مقادیر گمشده یا مقادیر خالی

- جداکردن مجموعه داده‌های آموزشی از آزمایشی

- ارائه گزارشی از کیفیت داده‌ها

آماده‌سازی داده‌ها برای داده‌کاوی تنها به معنی داشتن داده‌ها نمی‌باشد بلکه تمیزکردن داده‌ها و همچنین تبدیل فرمت آن‌ها به داده‌های مناسب‌تر، ممکن است پس از دریافت داده‌ها لازم باشد. زیرا که داده‌ها در پایگاه‌داده در حالت عادی برای داده‌کاوی مناسب نیست. بنابراین لازم بود تا در این مرحله برروی مجموعه داده‌های مورد نیاز که از بخش پایگاه‌داده دانشگاه دریافت شد، اقدامات لازم صورت پذیرد تا بتوان در نرم‌افزارهای مورد نظر از آن‌ها استفاده نمود و برای ورود به مراحل بعدی مهیا گردند.
یکی دیگر از فعالیت‌هایی که دراین مرحله انجام شد قالب‌بندی داده‌ها در نرم‌افزار ECXEL بود. زیرا بخشی از داده‌ها به‌صورت یک فایل پشتیبان MY SQL SERVER دریافت شده بود. پس از آن‌که تعدیلاتی بر روی داده‌ها در نرم‌افزار SQL SERVER صورت پذیرفت، فایل به نرم‌افزارEXCEL وارد گردید و رکوردهای مورد نیاز در یک جدول گردآوری شد تا در قالب یک فایل EXCEL وارد نرم‌افزار CLEMENTINE شوند.
۳-۷-۱-۴- مدل‌سازی
اگرچه فعالیت‌های این مرحله کم است ولی از حیث تکرار بسیار حایز اهمیت هستند:

- انتخاب تکنیک‌های مدل‌سازی

- ایجاد یک طرح آزمایشی

- ساخت مدل‌ها

- ارزیابی مدل‌ها

دراین بخش، لازم است تکنیک مورد نظر بر اساس آن‌چه در فصل دوم در بخش انواع فنون داده‌کاوی تشریح شد انتخاب شود. با توجه به اهداف داده‌کاوی و عنوان مطرح شده دراین تحقیق تکنیک مورد استفاده خوشه‌بندی و شبکه‌عصبی و درخت‌تصمیمC5 می‌باشد. دربین روش‌های خوشه‌بندی، روش k-means، به دلیل زمان محاسبه کم، قدرت انطباق بالا در نمونه‌ها با سایز بزرگ و سهولت استفاده، پرکاربردترین است(Kuo et al,2006 ).
لذا با توجه به این ویژگی‌ها و نوع داده‌ها، این الگوریتم برای یافتن تعداد بهینه خوشه‌ها انتخاب شد و در میان مدل‌های پیش‌بینی مدل‌های شبکه‌عصبی و درخت‌تصمیمC5. به دلیل داشتن دقت بالاتری نسبت به مدل‌های دیگر اتخاذ گردیدند. که در ادامه به تشریح این مدل‌ها خواهیم پرداخت.
۳-۷-۱-۵- ارزیابی نتایج
دراین قسمت باید نتایج تلاش‌های صورت گرفته در ایجاد معیارهای موفقیت که در آغاز پروژه مطرح نموده‌ایم را ارزیابی نماییم. ارزیابی کلیدی جهت اعتمادسازی برای سازمان است که بتواند نتایج به‌دست آمده توسط این فرایند را استفاده نماید. برای این منظور می‌توان پرسش‌های زیر را مدنظر قرار داد:

- آیا نتایج، در قالب جزء‌به‌جزء و شفاف و به‌صورتی که قابل ارائه باشند تشریح شده‌اند؟

- آیا نتیجه و موضوع خاص و منحصربه‌فردی که باید پررنگ شود، کشف شده است؟

- به طور کلی، روش مناسب پاسخگویی این کشفیات به اهداف تجاری سازمان چیست؟

۳-۷-۱-۶- بکارگیری مدل
دراین مرحله با توجه به پایان یافتن ساخت و ارزیابی مدل نتیجه‌ی کار، نیازمند این است که سازماندهی شود و به شکلی ارائه گردد که بهره برداران بتوانند از آن استفاده نمایند. بسته به ملزومات کار، فاز بکارگیری می‌تواند به سادگی ایجاد یک گزارش یا به پیچیدگی اجرای یک فرایند قابل تکرار کشف دانش در پایگاه‌داده باشد.
۳-۸- تحلیل خوشه‌ای
در تحلیل خوشه‌ای به دنبال کاهش و تقلیل موجودیت‌ها هستیم. تجزیه و تحلیل خوشه‌ای دست
ه‌بندی واحدهای آماری براساس حداقل دو متغیر قابل اندازه‌گیری است.
تحلیل خوشه‌ای یکی از روشه‌ای پرکاربرد در بسیاری از شاخه‌های علمی است. این تکنیک برای گروه‌بندی افراد یا موضوعات می‌باشد به‌طوری‌که درون گروه شباهت زیادی با همدیگر داشته، اما تفاوت قابل توجهی با گروه‌های دیگر ندارند. بنابراین اگر گروه‌بندی فوق به شیوه صحیح انجام گیرد، در صورت رسم نمودار آن‌ها، افراد درون گروه در یک مجموعه نزدیک به‌هم قرار می‌گیرند درحالی‌که فاصله زیادی با سایر گروه‌ها خواهند داشت (کلانتری، ۱۳۸۷). در فصل دوم به‌طور مفصل مفاهیم و تعاریف تحلیل خوشه‌ای شرح داده شده است.
دراین تحقیق از روش k-meanبرای این منظور استفاده شده است. الگوریتم‌های داده‌کاوی، خوشه‌بندی و انواع آن به طور کامل در فصل دوم شرح داده شده است و دراین فصل مروری بر تکنیک‌های مورد استفاده دراین تحقیق خواهیم داشت. خوشه‌بندی نوعی عملیات داده‌کاوی غیرمستقیم است. در اکثر روش‌های داده‌کاوی مثل درخت‌تصمیم و شبکه‌های عصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموعه سعی می‌کنیم یک مدل ایجاد نماییم که داده را بخش‌بندی کرده و سپس برای یک داده جدید دسته مناسب را پیش‌بینی کنیم. اما در روش خوشه‌بندی هیچ دسته‌ای از قبل وجود ندارد و یک فرایند کنترل نشده از تقسیم اشیا به گروه‌ها صورت می‌پذیرد(۲۰۱۰،Wang).خوشه‌ها طوری گروه‌بندی می‌شوند که شباهت زیادی در بین اشیاء از یک خوشه و همچنین عدم شباهت زیادی بین اشیاء از خوشه‌های مختلف وجود داشته باشد (۲۰۱۱،Yong).

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

آخرین مطالب

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

جستجو

موضوعات

فیدهای XML