@PlayForFun @Kerberusz és mindenki, akit érdekel:
Íme az eredmény @PlayForFun adatgyűjtéséből, táblázat formájában. Az első oszlopban találjátok @PlayForFun monojának színét, a második oszlopban, Becslés néven, a mono színű csempék százalékát a kezdőtáblákban, a harmadikban a hibákat (amit plusz-mínuszként szoktak megadni). A negyedik statisztikusi varázsszó, amit lejjebb megmagyarázok.
|Mono szín:|Becslés:|Hiba:| p-value:|
| — | — | — | — | — |
| Sárga: | 18.93% | 1.05% | 0.842|
|Lila: | 22.00% | 1.11% | 0.031|
|Kék: | 19.29% | 1.05% | 0.748|
|Piros: | 19.14% | 1.05% | 0.789|
|Zöld: | 20.43% | 1.08% | 0.344 |
Rövid konklúzió:
Statisztikusi szemmel nézve, ez mind tökéletesen kompatibilis egy egyenletes eloszlással. A mono szín a várható eloszlásnak megfelelően, közel 1/5 arányban fordult elő, és az összes ingadozás nem indokol semmiféle olyan feltételezést, hogy az SG belenyúl a táblákba. Semmiféle bankembernek, egészségügyi vagy politikai döntéshozónak vagy egyéb komoly embernek ennek alapján statisztikusi becsületemre nem tanácsolnék semmiféle akciót. Minden olyan, amilyennek elvárhatod.
Hosszabb magyarázat annak, akit érdekel és van türelme:
Esetleg egyesek úgy érzik, hogy a Lila valahogy túl távol van: 22% minusz az 1.1% hiba még minding nem éri el a 20%-ot! Nincs ez egy kicsit túl távol?
Ezért adtam meg azt is, amit a statisztikusok p-value-nak hívnak. Ez azt méri, hogy amennyiben tényleg 20%-ban jönnének az on-color csempék, akkor vajon mekkora lenne a valószínűsége, hogy ha pont ezt a kísérletet végrehajtanánk, ezt vagy ennél kisebb eredményt találnánk? Világos, hogy ha ez a valószínűség túl pici, vagy túl nagy, akkor nemigen valószínű, hogy a feltételezett 20%-os eloszlás produkalta azt, amit láttunk. Akkor megrázzuk a fejünket, és megyünk az SG-hez asztalra csapni, lobogtatva a statisztikai ■■■■ízist.
De a 0.03 p-value (azaz, 3%) a lila csempékre a szokásos mércével nem elég extrém ehhez. Eléggé határeset, mert a mienkhez hasonló esetekben akkor szokták elutasítani az alapfeltételezést (azaz nálunk a 20%-ot), ha ez a valószínűség kisebb, mint 2.5% vagy nagyobb, mint 97.5%. A szokásos statisztikai eljárások 3% esetében nem tanácsolják a felháborodást. Esetleg azt mondják, hogy több adattal biztosabbak lehetnénk, gyűjthetnénk még.
A mi esetünkben pár másik dolog is azt sugallja, hogy nem kell felháborodni. A legelső, hogy miért csak a lilában csalna az SG? Ha a többi oké, akkor ez is tényleg csak a random generátor. Aztán a másik: nem is egyszer, hanem ötször hajtottuk végre a kísérletet (az összes színnel), és ha valamivel többször teszel kísérletet, akkor több esélyed van valami valószínűtlent látni. Pl, ha háromszor feldobsz egy pénzt, és háromszor fej jön ki, azt mondhatod, hogy ejha. De ha 15-ször dobod fel, és találsz benne három egymást követő fejet, már nem vagy annyira meglepve, igaz?
Van még valami, amit meg akarok csinálni: azt tesztelni, hogy PlayForFun színválasztása és a csempék színeloszlása valóban független-e egymástól, teljesen közvetlenül, anélkül, hogy meg kellene becsülni a csempeszínek eloszlását. Úgy hívják, contingency table, ha valakit érdekel, a Wikipedián is van róla egy értelmes összefoglaló (lehet, hogy csak angolul, nem néztem meg). Meg az idősorelemzést, miután fantasztikus időpontok is vannak. Ezek a dolgok megint csak attól függnek, mennyi időm van…
Sajna, ezek nem egyszerű dolgok, próbáltam érthetően leírni, ha nem sikerült, csak kérdezzetek!