15 godzin zajęć - statystyka medyczna - podział materiału.
Wstęp do statystyki:
Co to jest statystyka i czym się zajmuje? opis i estymacja, czyli przewidywanie parametrów dla całej populacji na podstawie badań na próbkach
podstawowe pojęcia:
populacja
próbka reprezentatywna,
estymatory:
obciążone i nieobciążone (E(v')=v)
zgodny (limN→∞ P(|v'-v|>ε)=0), niezgodny
mierzone wielkości i skala pomiarowa: jakościowa i ilościowa. jakościowa: nominalna, porządkowa. ilościowa: interwałowa (równomierna) ciągła i dyskretna, ilorazowa
nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi,
porządkowa- podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana pry pomocy cyfr, np. tak i nie to 1 i 0, lub skala Apgar (0-10)
przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura
ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek,
Sposoby przedstawiania surowych danych (szeregi statystyczne: szeregi szczegółowe, rozdzielcze i czasowe ):
histogramy, zwykłe i skumulowane - skala przedziałowa/ilorazowa - zmienne ciągłe
miary symetrii (Histogram --> rozkład prawdopodobieństwa: zmienne dyskretne i ciągłe, funkcja gęstości i dystrybuanta.)
kurtoza K>0 - bardziej smukła niż normalny (rozkład leptokurtyczny), K<0 mniej smukła niż normalny (rozkład platokurtyczny)
skośność (współczynnik symetrii) As>0 - mediana i moda na lewo od średniej (symetria prawostronna- Mo), As<0 symetria lewostronna- Mo>Me>.
lub wersji pozycyjnej:
graficzna prezentacja statystyk:
rysunek ramka wąsy
Rozkłady prawdopodobieństwa, w szczególności rozkład normalny, przedział ufności, wartości krytyczne, centralne twierdzenie graniczne, rozkład t-studenta.
Histogram --> rozkład prawdopodobieństwa: zmienne dyskretne i ciągłe, funkcja gęstości i dystrybuanta.
rodzaj rozkładów prawdopodobieństwa:
symetryczny
asymetryczny
o kształcie J
multimodalny
Rozkład normalny
definicja
właściwości: wartość średnia, wariancja, odchylenie standardowe
standaryzacja
kwartyle i inne dla N(0,1) Q1=-0.67, Q3=0.67
±σ → 68%
±2σ → 95%
±3σ → 99%
przedział ufności, poziom istotności, wartości krytyczne
Inne rozkłady: Poison, binomialny - mogą być często przybliżane rozkładem normalnym
Centralne twierdzenie graniczne
Jeśli będziemy brali średnie n-elementowych próbek z dowolnej populacji (dystrybucji) to będą one w przybliżeniu miały rozkład normalny, którego średnia to średnia populacji, a odchylenie standardowe to (odchylenie populacji)/pierwiastek(n)
Przedział ufności dla średniej ze znaną i nieznaną wariancją populacji
wariancja próbkowania i błąd standardowy (SEM)
średnia próbki jest dobrym nieobciążonym estymatorem średniej populacji
jeśli znamy wariancję populacji - - to możemy oszacować przedział ufności dla prawdziwej średniej populacji. Zakładając, że średnia z próbki powinna z dużym prawdopodobieństwem znajdować się w przedziale ufności określonym przez średnią z populacji
jeśli znamy tylko wariancję próbki to stosujemy rozkład t-studenta z n-1 stopniami swobody - zmienna
Wartości krytyczne rozkładu dla danego poziomu istotności
Dwa sformułowania: w przedziale ufności z prawdopodobieństwem 1-α znajduje się średnia z populacji. W (1-α)*100% przedziałów ufności utworzonych dla losowo wybranych próbek znajduje się średnia z populacji.
Testy dla jednej próbki, schemat 5 punktów, rodzaje błędów.
Testowanie hipotez:
Hipoteza H0 i H1 - alternatywna, poziom istotności α
Błąd pierwszego i drugiego rodzaju, moc testu.
prawdopodobieństwo
H0 prawdziwa
H1 prawdziwa
Nie odrzucamy H0
ok - 1-α
β – błąd 2 rodzaju
akceptacja H1
α - błąd 1 rodzaju
ok - 1-β
Moc testu to prawdopodobieństwo 1-β, że jeśli hipoteza H1jest prawdziwa to H1 zostanie zaakceptowana.
Test t dla jednej próbki (rozkład Gaussa lub duża próbka)
H0: μ=μ0, σ=σ0; H1:μ≠μ0, σ=σ0 for α=0.05
znajdź
oblicz tα/2 i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -tα/2 i tα/2 jeśli tak to nie mamy podstaw do odrzucenia H0
wartość P - Jeśli P>α → wybieramy H0, jeśli P<α → odrzucamy H0
Analiza graficzna błędów I i II rodzaju na przykładzie testu t dla jednej grupy.
Analiza mocy testu - dobór wielkości grupy i wartości α.
Test t a przedział ufności.
Testy jednostronne Pjedn=P/2, zwrócić uwagę na znak t.
schemat 5 punktów
Zdefiniuj hipotezę zerową i alternatywną, oraz poziom istotności
Zbierz odpowiednie dane
Oblicz wartość statystyki
Oblicz wartości krytyczne odpowiedniego rozkładu, lub/i wartość P.
Zinterpretuj wyniki.
Testy t-studenta dla dwóch próbek zależnych i niezależnych.
Test t dla dwóch próbek zależnych (rozkład normalny różnicy d)
H0: μ1=μ2, H1:μ1≠μ2, for α=0.05
znajdź
, gdzie S dotyczy d
oblicz tα/2 i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -tα/2 i tα/2 jeśli tak to akceptujemy H0
wartość P ?
Test t dla dwóch próbek niezależnych (rozkład normalny w obu próbkach, równe wariancje, i wielkości prób)
H0: μ1=μ2, σ1=σ2; H1:μ1≠μ2, σ1=σ2 for α=0.05 and n1=n2=n
, gdzie i ilość stopni swobody df=2n-2
oblicz tα/2 i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -tα/2 i tα/2 jeśli tak to akceptujemy H0
wartość P ?
Istnieją też wersje dla różnych wielkości prób i nierównych wariancji
Testy t dla dwóch próbek niezależnych o różnych wariancjach i różnych rozmiarach
Sprawdzanie normalności przy pomocy testu Shapiro-Wilka: histogramy lub wykresy normalności
Sprawdzanie równości wariancji przy pomocy testu
Testy jednostronne a test dwustronny.
Testy nieparametryczne dla dwóch próbek: Wilcoxon i Mann-Whitney.
Testy dla próbek zależnych:
test znaków (zmienna co najmniej w skali porządkowej, zmienna w skali interwałowej nie musi mieć rozkładu normalnego)
Tworzymy pary wyników xi i yi
Statystyka W to liczba par w których xi > yi, podlega rozkładowi dwumianowamu
H0: ϕ1= ϕ2 H1: ϕ1≠ϕ2
test rangowy (Wilcoxona) (zmienna w skali interwałowej).
Tworzymy pary wyników zi= xi - yi
Następnie szeregujemy zi wg bezwzględnej wartości od najmniejszej do największej. Odrzucamy zi=0
Przypisujemy kolejne rangi, tak że 1 jest przypisana najmniejszej bezwzględnej wartości, itd.. Gdy mamy kilka takich samych wartości to przypisujemy im rangę równą średniej rozpinanych rang.
U jest równe ilości przypadków kiedy zmienna ze zbioru 1 ma większą rangę niż zmienna ze zbioru 2. Dla wygody przyjmujemy, że zbiór 1 ma mniejsze rangi.
Inny sposób: Niech R1 i R2 to odpowiednio sumy rang dla zbiorów 1 i 2. Wówczas
U jest stabelaryzowane dla małych grup (n1,n2 ≤20). Dla dużych próbek może być przybliżone rozkładem normalnym. Gdy wartość U jest dostatecznie mała to odrzucamy H0. Wartość oczekiwana U gdy H0 jest prawdziwa wynosi n1n2/2
Schemat testów:
rodzaj testu: porównanie lub zależność
skala pomiarowa
wybór testu
hipotezy H0 i H1
wynik: P
Interpretacja wyniku
Relacja między danymi (korelacja, regresja)
Jeśli jednocześnie zachodzą (relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych) wtedy stosujemy współczynnik korelacji liniowej Pearsona r
r2 – jest miarą (ułamkową) zmienności y, która może być wyjaśniona jej liniową zależnością od x --> rysunek przy regresji
Testowanie hipotez:
H0: ρ=0, H1: ρ≠0 zmienna testowa t-student test z n-2 stopniami swobody
Jeśli zachodzi któryś z następujących warunków (jedna ze zmiennych jest w skali porządkowej, żadna zmienna nie ma rozkładu normalnego, mała próbka, zależność nieliniowa) wtedy stosujemy współczynnik korelacji Spearmana
rs – r obliczony dla rang
rs2 nie może być interpretowany tak jak r2
Testowanie hipotez jak w przypadku r
regresja liniowa – obliczana gdy zachodzą jednocześnie (liniowa zależność między zmiennymi, niezależne wyniki (nie dla tego samego pacjenta), rozkład zmiennej zależnej y dla danej zmiennej niezależnej x jest normalny, wariancja y jest taka sama dla każdego x, x może być mierzony bez błędu, rozkład normalny reszt)
y=a+bx – współ. a i b liczone metodą najmniejszych kwadratów.
testowanie hipotez dla b - test F dla ilorazu odchyleń kwadratowych zmienność reg./zmienność res.: