02-14-2018، 10:41 AM
کاربرد آمار در داده کاوی
مقدمه و مقا یسه
آمار شاخه ای از علم پروژه آمار دوم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا از دانلود رایگان پروژه آمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای پروژه آمار دبیرستان در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسایل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای دانلود تحقیق آمار نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3]
در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی پروژه آمار را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5].
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج پروژه آمار رایگان استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1]
مقدمه و مقا یسه
آمار شاخه ای از علم پروژه آمار دوم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا از دانلود رایگان پروژه آمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای پروژه آمار دبیرستان در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسایل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای دانلود تحقیق آمار نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3]
در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی پروژه آمار را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5].
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج پروژه آمار رایگان استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1]