ძირითადი მასალა

კურსი: სტატისტიკა და ალბათობა > თემა 5

გაკვეთილი 5: შესაბამისობის შეფასება უმცირეს კვადრატთა რეგრესიებში

R-კვადრატის გააზრება

როცა პირველად ვისწავლეთ კორელაციის კოეფიციენტის,

r

-ის, შესახებ ჩვენ ყურადღება გავამახვილეთ იმაზე, რასაც ნიშნავს და არა მის გამოთვლაზე, რადგან გამოთვლები გრძელია.

იგივეს გავაკეთებთ

r^{2}

-ზე და ვკონცერტრირდებით იმაზე, თუ როგორ მოვახდინოთ იმის ინტერპრეტირება, თუ რას ნიშნავს.

თავისებურად,

r^{2}

ზომავს, რამდენად გამოირიცხება პროგნოზის ცდომილება, როცა უმცირეს კვადრატთა რეგრესიას ვიყენებთ.

პროგნოზირება რეგრესიის გარეშე

ჩვენ ვიყენებთ წრფივ რეგრესიას, რომ გავაკეთოთ

y

-ის პროგნოზი, როცა მოცემული გვაქვს

x

-ის რაიმე მნიშვნელობა. მაგრამ დავუშვათ, რომ უნდა გაგვეკეთებინა

y

მნიშვნელობა შესაბამისი

x

მნიშვნელობის გარეშე.

x

ცვლადზე რეგრესიის გამოყენების გარეშე ყველაზე მიზანშეწონილი შეფასება იქნებოდა, უბრალოდ, გაგვეკეთებინა

y

მნიშვნელობების საშუალოს პროგნოზი.

აქ არის მაგალითი, სადაც პროგნოზის წრფე არის უბრალოდ

y

მონაცემების საშუალო:

შენიშნეთ, რომ ეს წრფე მონაცემებს კარგად არ შეესაბამება. წრფის შესაბამისობის გაზომვის ერთი გზაა, გამოვთვალოთ ნაშთების კვადრატების ჯამი—ეს გვაძლევს ჯამურ წარმოდგენას იმის შესახებ, თუ ამ მოდელს რამდენი პროგნოზული ცდომილება აქვს.

ასე რომ, უმცირეს კვადრატთა რეგრესიის გარეშე კვადრატების ჯამია

41,187 9

უმცირეს კვადრატთა რეგრესიის გამოყენება შეამცირებდა პროგნოზის ცდომილების ოდენობას? თუ ასეა, რამდენით? მოდით, ვნახოთ!

პროგნოზირება რეგრესიით

აქ არის იგივე მონაცემები შესაბამისი უმცირეს კვადრატთა რეგრესიის წრფით და დაჯამებული სტატისტიკით:

განტოლება	$r$ ‍	$r^{2}$ ‍
$\hat{y} = 0, 5 x + 1, 5$ ‍	$0,816$ ‍	$0,665 9$ ‍

როგორც ჩანს, ეს წრფე მონაცემებს საკმაოდ კარგად შეესაბამება, მაგრამ იმის გასაზომად, თუ - რამდენად კარგად, შეგვიძლია, ისევ შევხედოთ ნაშთების კვადრატების ჯამს:

უმცირეს კვადრატთა რეგრესიის გამოყენებამ ნაშთების კვადრატების ჯამი შეამცირა

41,187 9

-დან

13,762 7

-მდე.

ასე რომ, უმცირეს კვადრატთა რეგრესიის გამოყენებამ გამორიცხა პროგნოზის ცდომილების გარკვეული ოდენობა. მაგრამ რამდენი?

R-კვადრატი ითვლის, რამდენად გამოირიცხება პროგნოზის ცდომილება

რეგრესიის გარეშე ჩვენ მოდელს ჰქონდა კვადრატების

41,187 9

-ის ტოლი ჯამი. უმცირეს კვადრატთა რეგრესიის გამოყენებამ იგი

13,762 7

-მდე შეამცირა.

ასე რომ, ჯამური შემცირებაა

41,187 9 - 13,762 7 = 27,425 2

ეს შემცირება შეგვძლია, წარმოვადგინოთ, როგორც პროგნოზის ცდომილების თავდაპირველი ოდენობის პროცენტი:

\frac{41,187 9 - 13,762 7}{41,187 9} = \frac{27,425 2}{41,187 9} \approx 66, 59 %

თუ უკან დავათვალიერებთ, ვნახავთ, რომ

r^{2} = 0,665 9

R-კვადრატი გვეუბნება,

y

ცვლადში პროგნოზის ცდომილების რამდენი პროცენტი გამოირიცხება, როცა უმცირეს კვადრატთა რეგრესიას ვიყენებთ

x

ცვლადზე.

ამის შედეგად,

r^{2}

-ს ასევე ეწოდება დეტერნიმაციის კოეფიციენტი.

ბევრი ფორმალური აღწერა ამბობს, რომ

r^{2}

გვეუბნება,

y

ცვლადის ვარიაციის რამდენი პროცენტი ითვლება

x

ცვლადის რეგრესიით.

საოცარია, რომ

r

-ის უბრალოდ კვადრატში აყვანა გვაძლევს ამ ზომას.

r

-სა და

r^{2}

-ს შორის ამ დამოკიდებულების დამტკიცება საკმაოდ კომპლექსურია და იგი ცდება სტატისტიკის შესავალის კურსის ფარგლებს.

გსურთ, შეუერთდეთ დისკუსიას?

შესვლა

დავალაგოთ:

პოსტები ჯერ არ არის.

გესმით ინგლისური? დააწკაპუნეთ აქ და გაეცანით განხილვას ხანის აკადემიის ინგლისურენოვან გვერდზე.