Üdvözlet!

5 éves oktatói pályafutásom emlékhelyén (PPKE, BCE, BKF)

Személyes honlap oktatási és kutatási anyagokkal kiegészítve

Daróczi Gergely

egyetemi tanársegéd

Következő fogadóóra: -

Személyes honlap oktatási és kutatási anyagokkal kiegészítve

Bejegyzések a következő témakörben: 'Matematikai érdekességek'

Anscombe’s Quartet Data

Correlation coefficient: 0.816

Since 2000, the median US wage has risen about 1%, adjusted for inflation.

But over the same period, the median wage for:

  • high school dropouts,
  • high school graduates with no college education,
  • people with some college education, and
  • people with Bachelor’s or higher degrees

have all decreased. In other words, within every educational subgroup, the median wage is lower now than it was in 2000.

Forrás: http://blog.revolutionanalytics.com/2013/07/a-great-example-of-simpsons-paradox.html

FP5neEK

Forrás: http://imgur.com/FP5neEK

Get Msc in logic!


Két független változó térbeli megjelenítése nem okozhat problémát, ehhez vegyünk egy egyszerű példát:

Forrás: saját készítésű ábra R-ben (katt a képre a nagyításhoz!)

Az ábrán két folytonos változót látunk különböző gépkocsikra vonatkoztatva: a sebesség és a féktávolság (fixme!). Ránézésre egyértelműnek tűnik az a megállapítás, hogy gyorsabb gépjárműhöz nagyobb féktávolság tartozik. Ezt szeretnénk alátámasztani a kovariancia/korreláció meghatározásával.

Első körben nézzük meg a változók szórását. A fenti ábrán két kiragadott gépkocsi adatainak a távolságát jelölik a kék és piros szakaszok az átlagos értékektől (fekete vonalak). Amennyiben minden esetben meghatározzuk ezeket a távolságokat, közelebb kerülünk az empirikus szórás meghatározásához:

Forrás: saját készítésű ábra R-ben (katt a képre a nagyításhoz!)

Az átlagtól mért távolságok összegzése során a negatív és pozitív értékek “kioltják egymást”, így a szórás meghatározása során általában az eltérés négyzetével vagy olykor azok abszolútértékével számolunk: $$S^{*}=\sqrt{\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}}$$

Amennyiben az egyes tengelyeket (változóterekben) az átlagtól való négyzetes eltérések átlagát (magyarán: szórást) ábrázoljuk, úgy független változók esetében az együttes szórást is könnyen meghatározhatjuk:

Forrás: John D. Cock

Lévén, hogy a két változó független, a két szórás által bezárt szög az ábrán 90 fok, így az ismert tétel alapján: $$VAR(X+Y) = VAR(X) + VAR(Y)$$

Amely összefüggés elméleti úton is könnyen bizonyítható: független változók esetében a kovariancia minden esetben 0, így annak nincs módosító hatása a fenteb bemutatott varianciára.

Összefüggést mutató változók estében azonban az ábra módosul és a Pitagorasz-tétel nem alkalmazható:

Forrás: John D. Cock

Így a közös variancia meghatározása is módosul. További részletekkel kapcsolatban lásd az eredeti forrást!