آناتومی تحلیل رگرسیون

تحلیل رگرسیون (Regression analysis) یک روش آماری قدرتمند است که به شما امکان می دهد رابطه بین دو یا چند متغیر مورد علاقه را بررسی کنید. در تحلیل رگرسیونی نیاز به درک و تیز بینی در دو حوزه تئوری آمار و مسائل عملی وجود دارد. تحلیل رگرسیونی یک روش آماری برای تحلیل داده های چند عاملی است که کاربرد آن بیشترین دامنه را دارد و نتایج آن در پژوهش های آماری بسیار حائز اهمیت است. 

تحلیل رگرسیونRegression analysis
تحلیل رگرسیون

تحلیل رگرسیون

تحلیل رگرسیون (Regression analysis) یک روش آماری قدرتمند است که به شما امکان می دهد رابطه بین دو یا چند متغیر مورد علاقه را بررسی کنید. در تحلیل رگرسیونی نیاز به درک و تیز بینی در دو حوزه تئوری آمار و مسائل عملی وجود دارد.

در حالی که انواع مختلفی از تحلیل رگرسیون وجود دارد، به طور کلی همه آنها تاثیر یک یا چند متغیر مستقل را بر یک متغیر وابسته بررسی می کنند.

مزایای تحلیل رگرسیون در کسب و کار

تجزیه و تحلیل رگرسیون بینش دقیقی را ارائه می دهد که می تواند برای بهبود محصولات و خدمات بیشتر مورد استفاده قرار گیرد.

در Marketing Iran Talent، ما تحلیل آماری کاربردی برای دانشجویان و صاحبان کسب و کار برای پروژه های دانشجویی و بازاریابی را با استفاده از نرم افزار SPSS ارائه می دهیم.

برای درک ارزش هایی که در این مجموعه آموزشی ارائه می شود، عناوین آماری مهم را برای خوانندگان در نظر می گیریم تا درک بهتری از تحلیل آماری داشته باشند.

تحلیل رگرسیونی چیست ؟

تحلیل رگرسیونی یک روش آماری برای تحلیل داده های چند عاملی است که کاربرد آن بیشترین دامنه را دارد و نتایج آن در پژوهش های آماری بسیار حائز اهمیت است. به طور کلی :

تحلیل رگرسیون تکنیک آماری به منظور بررسی و مدلسازی ارتباط بین متغیرها می باشد. تجزیه و تحلیل رگرسیون یک روش قابل اعتماد برای شناسایی متغیرهایی است که بر موضوع مورد بررسی تاثیر می گذارد.

روند انجام یک تحلیل رگرسیونی به شما امکان می دهد با اطمینان تعیین کننده ترین عوامل را مشخص کنید. همچنین اینکه کدام عوامل را می توان نادیده گرفت و چگونه این عوامل بر یکدیگر تاثیر می گذارند.

برای درک کامل رگرسیون، اصطلاحات زیر را بیاد داشته باشید :

  • متغیر وابسته : این عامل اصلی است که شما سعی در درک یا پیش بینی آن دارید.
  • متغیرهای مستقل : این عواملی هستند که شما فرض می کنید تاثیری بر متغیر وابسته شما دارند.

کاربردهای اصلی تحلیل رگرسیون

از نظر تحلیل گران آماتور ممکن است یک مدل در نگاهی ظاهری به بهترین شکل با داده ها برازش داشته باشد. و برای هر منظوری مناسب به نظر آید . ما مدلی که برازشی رضایتبخش را برای داده ها ارائه می دهد ، در حل مساله ای دیگر لزوماً کارامد نیست. کاربردهای تحلیل رگرسیون زا می توان در چهار بخش طبقه بندی نمود که این طبقات گاهی همپوشانی دارند .

  • پیش بینی
  • پالایش متغیرها
  • ساختار مدل
  • برآورد کردن پارامترها
  • کارکرد تحلیل رگرسیون

برای انجام تجزیه و تحلیل رگرسیون ، شما باید فرض کنید که یک متغیر وابسته تعریف شده یک یا چند متغیر مستقل را تحت تاثیر قرار می دهد.

سپس شما نیاز به ایجاد مجموعه ای جامع  از داده های نظرسنجی به منظور بررسی رابطه موجود دارید. نظرسنجی شما باید شامل سوالات مربوط به تمام متغیرهای مستقل که شما علاقه مند به آن هستید.

مقالات پیشنهادی

تحلیل آماری

بیایید با استفاده از یک مثال آموزشی ، روش تحلیل رگرسیون را ادامه دهیم. در این مورد، ما می خواهیم میزان رضایت تاریخی رویدادهای مربوط به سه سال گذشته یا بیشتر (و یا هرچقدر که به لحاظ آماری معنی داری قابل توجه است) را اندازه گیری کنیم . و همچنین اطلاعاتی که ممکن است در مورد متغیرهای مستقل وجود داشته باشد را بدست آوریم.

شاید شما در مورد اینکه چگونه قیمت یک بلیط بر میزان رضایتمندی تاثیر گذار است، بسیار مشتاق باشید.

برای شروع بررسی اینکه آیا ارتباط بین این دو متغیر وجود دارد یا خیر، ما می توانیم با ترسیم این نقاط داده در یک نمودار، به بررسی دقیق تر بپردازیم .

ترسیم نمودار داده ها در تحلیل رگرسیون

ترسیم نمودار داده های تحقیق اولین گام در درک این موضوع است که اینک آیا رابطه بین متغیر مستقل و وابسته شما وجود دارد یا خیر ؟

تحلیل رگرسیونی

تحلیل رگرسیونی

متغیر وابسته ما (در این مورد، سطح رضایت رویداد) باید بر محور y نشان داده شود، در حالی که متغیر مستقل ما (قیمت بلیط رویداد) باید بر محور x ترسیم شود.

هنگامی که داده های شما ترسیم می شوند، ممکن است مشاهده همبستگی را نتیجه گیری کنید. اگر نمودار تئوریک بالا در واقع تاثیر قیمت های بلیط را بر رضایتمندی رویداد نشان دهد، ما می توانیم با اطمینان بگوییم که با بالاتر بردن قیمت بلیط، سطح رضایت از رویداد نیز بالاتر می رود .

مقالات پیشنهادی

آزمون کوکران

اما چگونه می توانیم درجه ای را که قیمت بلیط بر رضایت رویداد تاثیر می گذارد، بگوئیم؟

برای شروع پاسخ به این سوال، خط مستقیمی را از بین وسط تمام نقاط داده در نمودار بکشید. این خط به عنوان خط رگرسیون شما اشاره می شود و می تواند دقیقا با استفاده از یک برنامه آماری استاندارد مانند SPSS یا اکسل محاسبه شود.

ما یکبار دیگر از یک نمودار نظری برای نشان دادن ارتباط  خطی استفاده می کنیم.

تحلیل رگرسیون

تحلیل رگرسیون

خط رگرسیون رابطه بین متغیر مستقل و متغیر وابسته پژوهش را نشان می دهد.

اکسل حتی یک فرمول برای شیب خط ارائه می دهد که زمینه ارتباط بیشتری را برای ارتباط بین متغیر مستقل و وابسته اضافه می کند.

فرمول خط رگرسیون ممکن است چیزی شبیه به  Y=100+7X+e باشد که در آن e مقدار خطا است.

این به شما می گوید که اگر متغیر “X” وجود نداشته باشد ، Y = 100. اگر X افزایش قیمت بلیط ما باشد، این به ما اطلاع می دهد که اگر قیمت بلیط افزایش نیافتد، رضایت از رویداد همچنان با ۱۰۰ امتیاز افزایش می یابد.

متوجه خواهید شد که فرمول شیب محاسبه شده از اکسل شامل یک عبارت خطا می باشد. خطوط رگرسیون همیشه یک میزان خطایی را در نظر می گیرند؛ زیرا در واقعیت ، متغیر مستقل هرگز پیش بینی کننده دقیق متغیرهای وابسته نیست. این در حالی است که با توجه به تاثیر قیمت بلیط در رضایت رویداد ، منطقی است که به طور واضح متغیرهای دیگری که در رضایت از رویداد ، به جزء  قیمت دخیل هستند، وجود دارد.

خط رگرسیون شما به سادگی یک برآورد بر اساس اطلاعات موجود در اختیار شما قرار می دهد. بنابراین، خطای بزرگتر نشان دهنده اعتبار کمتر رگرسیون است.

معیارهای مناسبت مدل در تحلیل رگرسیون

مفروضات عمده ای که در تحلیل رگرسیونی در نظر گرفته می شوند عبارتند از :

  • رابطه بین x و y خطی است یا حداقل به خوبی با یک خط مستقیم تقریب زده می شود.
  • جمله خطا یعنی ɛ دارای میانگین صفر است.
  • جمله خطا یعنی ɛ دارای واریانس ثابت است.
  • خطاها ناهمبسته اند.
  • خطاها دارای توزیع نرمال هستند.

اگر مفروضات ۴ و ۵ برقرار باشند نتیجه می شود خطاها دارای متغیرهای تصادفی مستقل می باشند. فرض ۵ برای آزمون فرضیه و بدست آوردن فاصله اطمینان ضروری است.

آناتومی تحلیل رگرسیونی

۳ چیز متفاوت در مورد تحلیل رگسیون وجود دارد که باید به خوبی درک شود .

نمودار پراکندگی

برای اجرای تجزیه و تحلیل رگرسیون ، ابتدا باید نقاط داده های خود یا نمودار پراکندگی (Scatter plot) را رسم کنیم – و بهترین شیوه نمایش داده ها از طریق نمایش نمودار پراکندگی است. محور X متغیر مستقل  و محور Y متغیر وابسته است.

بهترین خط برازش

بهترین خط برازش (Best-fit line) ، به یک خط در نمودار پراکندگی داده ها اشاره دارد که بهترین رابطه بین آن نقاط را بیان می کند. خطوط برازش دارای سه نوع متفاوت هستند :

خطی (Linear)

این یک خط مستقیم است – به این معنی است که شما به طور پیوسته رشد می کنید. شما با گذشت زمان با همان سرعت پیشرفت می کنید. در شکل زیر به این نوع برازش خطی اشاره شده است .

تحلیل رگرسیون

تحلیل رگرسیون

نمایی (Exponential)

این یک خط منحنی است که بسیار سریع به سمت بالا حرکت می کند و صاف نمی شود – شما با سرعت بیشتر و سریعتر در طول زمان پیشرفت می کنید. در شکل زیر به این نوع برازش نمایی اشاره شده است .

تحلیل رگرسیونی

تحلیل رگرسیونی

لگاریتمی (Logarithmic)

این یک خط منحنی است که با گذشت زمان مسطح می شود – اساسا، شما در طول زمان با سرعت و آهسته تر پیشرفت می کنید و به طور بالقوه به یک سقف می رسید که انتظار آنرا نداشتید خیلی بیشتر رشد کنید. در شکل زیر به این نوع برازش لگاریتمی اشاره شده است .

تحلیل رگرسیون

تحلیل رگرسیون

حالتهای بیشتری نیز وجود دارد که ما در اینجا این سه مدل را اشاره نمودیم.

ضریب تعیین

R²، یا ضریب تعیین ، یک عدد بین ۰ و ۱ است که به شما می گوید که خط به مجموعه داده بستگی دارد یا خیر. اگر ضریب تعیین نزدیک تر به ۱ باشد ، برازش خطی با مجموعه داده ها متناسب است و برای نتیجه گیری های همبستگی قابل اتکاء تر است. بنابراین با R² به میزان ۰٫۹۸، می توانید بگویید که ۹۸٪ از واریانس در Y بوسیله واریانس X توضیح داده شده است.

ضریب تعیین معیاری پر کاربرد و گاهی تفهیم نشده  برای اندازه گیری برازش خط رگرسیون است. اما مقدار قابل قبول برای ضریب تعیین چقدر است ؟ پاسخ به این سوال بسیار دشوار است ، و در واقع مقدار قابل قبول به نوع تحقیقاتی که داده ها از آن استخراج شده اند بستگی دارد.

یک محقق شیمی که باید اندازه قطر یک ابزار بسیار دقیق را برآورد نماید ، به طور قطع انتظار یک ضریب تعیین بسیار بزرگ مانند ۹۹% را دارد. این در حالی که است که پژوهگشر علوم رفتاری با مشاهده ی ضریب تعیین ۷۰% نیز احساس رضایت دارد.

منابع : surveygizmoblog.hubspot