Czym jest regresja i na czym polega analiza regresji?

– Podaj mi tato tamtą książeczkę – poprosiła Jagoda.

– Oj, ona będzie za ciężka dla Ciebie – odpowiedziałem.

– A skąd wiesz?

– Hmm…widzisz tę małą książeczkę? Podnieś ją najpierw, proszę. I jaka jest?

– Całkiem lekka.

– A teraz podnieś kolejną, dwa razy większą.

– Troszkę cięższa, ale dalej lekka.

– To zrób mały eksperyment! – na samą myśl o eksperymencie Jagódce zaświeciły się oczka. Podnieś jeszcze osobno każdą z 6 książeczek, które leżą tam w rogu. Zapamiętaj czy jest ciężka, czy nie na podstawie jej wielkości i grubości.

– Już! – krzyknęła Jagódka po chwili.

– A teraz mając tę wiedzę, spójrz na książkę, którą prosiłaś, abym Ci podał.

– Oj, ta to będzie na pewno bardzo ciężka.

– No właśnie. Na podstawie danych, które zebrałaś, przewidziałaś w prosty sposób jej wagę. Może nawet nasze mózgi same przeliczyły regresje – zaśmiałem się.

Regresja jest jedną z najbardziej popularnych metod analizy danych statystycznych. Znana jest już od XVIII wieku! Na dodatek jest potężną metodą statystyczną, która pozwala zbadać związek między dwiema lub większą ilością interesujących Cię zmiennych.

Co to jest regresja?

Najprościej mówiąc, to główną ideą regresji jest prognozowanie danych dla pewnej zmiennej na podstawie innych zmiennych (charakterystyk). Czyli stoisz przed zadaniem określenia, jaką wartość przyjmie jedna zmienna, znając inne zmienne.

Dla przykładu gdybyśmy chcieli przewidzieć, ile ktoś ważny na podstawie płci, wzrostu i ilości tkanki tłuszczowej.

Aby poprawnie poznać zależności pomiędzy zmiennymi, wykorzystujemy do ich odkrycia właśnie analizę regresji, dzięki której konstruujemy model regresyjny. Oczywiście jak to mawiał statystyk George Box:

all models are wrong- - regresja

W tym przypadku również ten model będzie przewidywał wynik z pewnym błędem statystyczny.

Krótki zarys historyczny

Najwcześniejszą formą regresji była metoda najmniejszych kwadratów, która została opublikowana przez Legendre w 1805 oraz przez Gaussa w 1809. Zastosowali oni tę metodę do określania orbit ciał niebieskich wokół Słońca na podstawie obserwacji astronomicznych. Natomiast samo słowo „regresja” zostało pierwszy raz wykorzystane przez Francisa Galtona w XIX wieku w celu opisania ciekawego zjawiska biologicznego. Zauważył on, że potomkowie wysokich przodków mają tendencję do osiągania średniego wzrostu.

Regresja – wzór na ogólną postać

Ogólny zapis regresji:

regresja - postać funkcji

gdzie:

  • X – wektor zmiennych objaśniających (czyli cech)
  • y – zmienna objaśniana (czyli to, co przewidujemy)
  • ß – wektor współczynników regresji
  • f(X,ß) – funkcja regresji
  • ɛ – błąd losowy

Na czym polega analiza regresji?

Analiza regresji to po prostu dział statystyki zajmujący się modelami i metodami regresji. Natomiast sama analiza regresji składa się z dwóch części:

1. Budowa modelu

Pierwsza część to budowa modelu regresyjnego, czyli funkcji regresji (f) opisującej jak zależy nasza wartość oczekiwana (y) od cech objaśniających (X).

Funkcja ta nie musi być prostym wzorem matematycznym. Może to być cały algorytm taki jak sieć neuronowa czy drzewo decyzyjne.

Model budujemy tak, by jak najlepiej pasował do danych z próby (zbioru uczącego).

2. Stosowanie modelu

Druga część to stosowanie modelu. Czyli bierzemy nasz model gdzie posiadamy jedynie dane objaśniające i na jego podstawie wyliczamy wartość oczekiwaną dla zmiennej objaśnianej.

W praktyce zawsze występuje pewna wielkość błędu oszacowania! Chodzi o to, że model prognozy zakłada pewien błąd oszacowania swoich prognoz. Natomiast im model jest „lepszy” tym ten błąd będzie mniejszy. Modele regresyjne zakładają wystąpienie błędu oszacowania i mylą się o pewną wielkość. Ideą regresji jest zminimalizowanie tego błędu oszacowania do tego stopnia, aby model był przydatny w swoich prognozach. Ostatecznie wartościowe będą tylko te modele, dla których błąd oszacowania będzie relatywnie niewielki.

Przykłady regresji

Poniżej kilka przykładów dla łatwiejszego zobrazowania czym jest regresja:

  1. W ekonomii na podstawie importu, eksportu i stopy bezrobocia można spróbować przewidywać PKB kraju.
  2. Na podstawie ceny ropy można przewidywać cenę gazu.
  3. Na podstawie danych z konta osobistego i raportu z Biura Informacji Kredytowej można przewidywać, czy kredytobiorca spłaci kredyt. Przy okazji wiesz, że możesz w BIK sprawdzić za darmo raz na pół roku, co widzą o Tobie banki? 🙂
  4. Mając informacje o ilości i rodzajach spożywanych posiłków oraz takie dane jak wiek, płeć i waga można przewidzieć czy dana osoba będzie tyła, czy chudła.

Rodzaje regresji

Istnieje naprawdę wiele odmian regresji. Poniżej wymieniłem niektóre z nich:

  • Regresja liniowa:
    • zwykła,
    • z przekształceniami,
    • z interakcjami,
  • regresja:
    • nieliniowa,
    • logistyczna,
    • krokowa (postępowa lub wsteczna),
    • porządkowa,
  • uogólnione modele liniowe (GLM),
  • auto regresja,
  • itd. 🙂

Warto jeszcze dodać, że regresja, w której występuje więcej niż jedna zmienna objaśniająca, zwana jest regresją wieloraką (ang. multiple regression).

Podsumowanie

Mam nadzieję, że pojęcie samej regresji będzie Ci już znane. W kolejnym artykule opiszę regresję liniową oraz przeanalizuję, czy w otaczającym nas świecie z dużą ilością algorytmów takich jak np. sieci, lasy losowe i wzmocnienia gradientowe warto z niej korzystać.

Pozdrawiam serdecznie,

podpis Mirek

.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *