داده کاوی چیست؟ (Data Mining)

داده کاوی چیست؟ (Data Mining)

نویسنده: yaserbigdelo منتشر شده در: دیتا ماینینگ (Data Mining) تاریخ ایجاد: 2017-05-31 بازدیدها: 58 نظرات: 0

تکنولوژی های جدید اطلاعاتی و ارتباطی، و همچنین فناوری های پشتیبان تصمیم، با جمع آوری، ذخیره، ارزیابی، تفسیر و تحلیل، بازیابی و اشاعه اطلاعات به کاربران خاص، می توانند در اطلاع یابی به موقع، صحیح و مورد نیاز به افراد تاثیر بسیار زیادی داشته باشند. یکی از ابزار های مورد استفاده در این فناوری ها، داده کاوی می باشد. داده کاوی شامل استفاده از ابزار های پیشرفته تحلیل داده به منظور کشف الگوهای معتبر و روابط در مجموعه داده های بزرگ است. این ابزار ها، مدل های آماری، الگوریتم های ریاضی و متد های یادگیری ماشین می باشد.

داده کاوی فراتر از جمع آوری و مدیریت داده است و شامل تجزیه و تحلیل و پیش گویی می شود. نام دیگر آن کشف دانش در پایگاه داده یا به اختصار KDD است.

مفاهیم داده کاوی

در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است.

حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشه ها نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است.

علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است.
 استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند.

پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند.
داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست.
 داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند.
انگیزه برای گسترش داده کاوی بطور عمده از دنیای تجارت در دهه ۱۹۹۰۰ پدید آمد.

 

 عناصر داده کاوی

توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند.
تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است.
برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
 برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:

۱. انتخاب داده ها
۲. پاک سازی داد ها
۳. غنی سازی داده ها
۴۴. کد گذاری داده ها

با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید.
ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند.
 در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند.
 این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا” جهت انتقال داده ها به فرم ساختاربندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه می شود .

 

فنون داده کاوی

برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:

ابزارهای پرس و جو:

ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.

فنون آماری:

مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطعداده ها و محاسبه پارامترهای آماری مهم بدست آید.

مصور سازی:

با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.

پردازش تحلیلی پیوسته:

از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد.

یادگیری مبتنی بر مورد:

این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.

درختان تصمیم گیری:

این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک می کند.

قوانین وابستگی:

اغلب مشاهده می شود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته می شوند.

شبکه های عصبی:

این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.

الگوریتم ژنتیکی:

این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال

جهش تصادفی:

همانطور که در تکامل طبیعی فرض میشود طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس می کند.

گام نهایی فرایند داده کاوی، گزارش دادن است.
 گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است. و متن مناسب، جداول و گرافیکها را در خود جای می دهد.

بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی می کند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.

 

تعریف داده کاوی

داده کاوی
 تعریف های گوناگونی برای داده کاوی در متون آکادمیک ارائه شده که در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم بزرگی از داده ها می سازد معرفی گردیده است و در برخی دیگر، تعاریف دقیق تر که در آنها به کاوش در داده ها توجه می شود موجود است.

برخی از این تعاریف عبارتند از:

داده کاوی به فرآیند استخراج اطلاعات معتبر و از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیتهای تجاری مهم گفته می شود.
 اصطلاح داده کاوی به فرآیند تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگو های مفید اطلاق می شود.

داده کاوی یعنی: جستجو در یک پایگاه داده ها برای یافتن الگو هایی میان داده ها.

داده کاوی یعنی: استخراج دانش کلان، قابل استناد و جدید از پایگاه داده های بزرگ.

داده کاوی یعنی: تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .

همانطور که در تعاریف مختلف داده کاوی می بینیم، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش، تحلیل و یافتن الگوی بین داده ها اشاره شده است.

 

تاریخچه داده کاوی

اخیراً داده کاوی موضوع بسیاری از مقالات، کنفرانس ها و رساله های علمی بوده است، اما این واژه ها تا اوایل دهه نود مفهومی نداشت و به کار برده نمی شد.

در دهه شصت و قبل از آن زمینه هایی برای ایجاد سیستم های جمع آوری و مدیریت داده ها به وجود آمد و تحقیقاتی در این زمینه صورت گرفت که منجر به معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید.

ایجاد مدل های داده ای و توسعه آن برای پایگاه شبکه ای، سلسله مراتبی و به خصوص رابطه ای در دهه هفتاد، منجر به معرفی مفاهیمی مانند شاخص گذاری و سازماندهی داده ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرم های اطلاعاتی مورد نظر خود را، از این طریق ایجاد نمایند.

توسعه سیستم های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه های شی گرا، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم ها در سراسر جهان گردید. به این ترتیب DBMS هایی همچون DB۲ ،Oracle ،Sybase، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم ها مورد پردازش قرار گرفتند. شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده ها (KDD) دانست بطوریکه در بسیاری موارد DM و KDD به صورت مترادف مورد استفاده قرار می گیرند.

مفهوم داده کاوی برای نخستین بار توسط Shapir مطرح گردید. به دنبال آن در سال های ۱۹۹۱ تا ۱۹۹۴، کارگاه های KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند بطوریکه بسیاری از مفاهیم با آن مرتبط گردیدند.

داده کاوی,data mining,داده کاوی

کاربرد های داده کاوی در محیط های واقعی

بانکداری:
پیش بینی الگو های کلاهبرداری از طریق کارت های اعتباری
تشخیص مشتریان ثابت
 تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی

بیمه:
تجزیه و تحلیل دعاوی
 پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان

خرده فروشی: یکی از کاربرد های کلاسیک داده کاوی است که می توان به موارد زیر اشاره کرد:

تعیین الگو های خرید مشتریان
تجزیه و تحلیل سبد خرید بازار
 پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی)

پزشکی:
تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت
 مراحل فرآیند کشف دانش از پایگاه داده ها

فرآیند کشف دانش از پایگاه داده ها شامل پنج مرحله است که عبارتند از:
انبارش داده ها
انتخاب داده ها
تبدیل داده ها
 کاوش در داده ها

تفسیر نتیجه:

همانطور که مشاهده می شود، داده کاوی یکی از مراحل این فرآیند است که به عنوان بخش چهارم آن نقش مهمی در کشف دانش از داده ها ایفا می کند.

انباره داده ها
 وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم. اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات نا صحیح در سازمان ها می گردد و منتج به نتایج خطرناکی خواهد گردید که نمونه های آن کم نیستند.

اکثر سازمان ها دچار یک خلا اطلاعاتی هستند. در این گونه سازمان ها معمولا سیستم های اطلاعاتی در طول زمان و با معماری و مدیریت های گوناگون ساخته شده اند، بطوریکه سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمی گردد. علاوه بر این برای فرآیند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیری های حیاتی نیازمندیم.

هدف از فرآیند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است. در این فرآیند، اطلاعات تحلیلی و موجز در دوره های زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرآیند های تصمیم گیری که از ملزومات آن داده کاوی است، استفاده شود. بطور کلی تعریف زیر برای انبار داده ها ارائه می گردد:

انبار داده ها، مجموعه ای است موضوعی، مجتمع، متغیر در زمان و پایدار از داده ها که به منظور پشتیبانی از فرآیند مدیریت تصمیم گیری مورد استفاده قرار می گیرد.

 

انتخاب داده ها

انبار داده ها شامل انواع مختلف و گوناگونی از داده است که همه آنها در داده کاوی مورد نیاز نیستند. برای فرآیند داده کاوی باید داده های مورد نیاز انتخاب شوند. به عنوان مثال در پایگاه داده های مربوط به سیستم فروشگاهی،اطلاعاتی در مورد خرید مشتریان، خصوصیات آماری آنها، تامین کنندگان، خرید، حسابداری و … وجود دارند. برای تعیین نحوه چیدن قفسه ها تنها به داده هایی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است. حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست، بلکه ممکن است به منظور کاهش هزینه عملیات، نمونه هایی از عناصر انتخاب و کاوش شوند.

 

تبدیل داده ها

زمانی که داده های مورد نیاز انتخاب شدند و داده های مورد کاوش مشخص گردیدند، معمولا به تبدیلات خاصی روی داده ها نیاز است. نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد: تبدیلاتی ساده همچون تبدیل نوع داده ای به نوع دیگر تا تبدیلات پیچیده تر همچون تعریف صفات جدید با انجام عملیات های ریاضی و منطقی روی صفات موجود.

 

کاوش در داده ها

داده های تبدیل شده با استفاده از تکنیک ها و عملیات های داده کاوی مورد کاوش قرار می گیرند تا الگو های مورد نظر کشف شوند.