5 éves oktatói pályafutásom emlékhelyén (PPKE, BCE, BKF)
Correlation coefficient: 0.816
Since 2000, the median US wage has risen about 1%, adjusted for inflation.
But over the same period, the median wage for:
- high school dropouts,
- high school graduates with no college education,
- people with some college education, and
- people with Bachelor’s or higher degrees
have all decreased. In other words, within every educational subgroup, the median wage is lower now than it was in 2000.
Forrás: http://blog.revolutionanalytics.com/2013/07/a-great-example-of-simpsons-paradox.html
Két független változó térbeli megjelenítése nem okozhat problémát, ehhez vegyünk egy egyszerű példát:
Forrás: saját készítésű ábra R-ben (katt a képre a nagyításhoz!)
Az ábrán két folytonos változót látunk különböző gépkocsikra vonatkoztatva: a sebesség és a féktávolság (fixme!). Ránézésre egyértelműnek tűnik az a megállapítás, hogy gyorsabb gépjárműhöz nagyobb féktávolság tartozik. Ezt szeretnénk alátámasztani a kovariancia/korreláció meghatározásával.
Első körben nézzük meg a változók szórását. A fenti ábrán két kiragadott gépkocsi adatainak a távolságát jelölik a kék és piros szakaszok az átlagos értékektől (fekete vonalak). Amennyiben minden esetben meghatározzuk ezeket a távolságokat, közelebb kerülünk az empirikus szórás meghatározásához:
Forrás: saját készítésű ábra R-ben (katt a képre a nagyításhoz!)
Az átlagtól mért távolságok összegzése során a negatív és pozitív értékek “kioltják egymást”, így a szórás meghatározása során általában az eltérés négyzetével vagy olykor azok abszolútértékével számolunk: $$S^{*}=\sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}}$$
Amennyiben az egyes tengelyeket (változóterekben) az átlagtól való négyzetes eltérések átlagát (magyarán: szórást) ábrázoljuk, úgy független változók esetében az együttes szórást is könnyen meghatározhatjuk:
Forrás: John D. Cock
Lévén, hogy a két változó független, a két szórás által bezárt szög az ábrán 90 fok, így az ismert tétel alapján: $$VAR(X+Y) = VAR(X) + VAR(Y)$$
Amely összefüggés elméleti úton is könnyen bizonyítható: független változók esetében a kovariancia minden esetben 0, így annak nincs módosító hatása a fenteb bemutatott varianciára.
Összefüggést mutató változók estében azonban az ábra módosul és a Pitagorasz-tétel nem alkalmazható:
Forrás: John D. Cock
Így a közös variancia meghatározása is módosul. További részletekkel kapcsolatban lásd az eredeti forrást!