15 godzin zajęć statystyka medyczna podział materiału. Wstęp do statystyki

Yüklə 68,55 Kb.

tarix	09.02.2017
ölçüsü	68,55 Kb.
	#8104

15 godzin zajęć - statystyka medyczna - podział materiału.

Wstęp do statystyki:
1. Co to jest statystyka i czym się zajmuje?  opis i estymacja, czyli przewidywanie parametrów dla całej populacji na podstawie badań na próbkach
2. podstawowe pojęcia:
  1. populacja
  2. próbka reprezentatywna,
  3. estymatory:
    1. obciążone i nieobciążone (E(v')=v)
    2. zgodny (lim_N_→∞ P(|v'-v|>ε)=0), niezgodny
3. mierzone wielkości i skala pomiarowa: jakościowa i ilościowa. jakościowa: nominalna, porządkowa. ilościowa: interwałowa (równomierna)  ciągła i dyskretna, ilorazowa
  1. nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi,
  2. porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana pry pomocy cyfr, np. tak i nie to 1 i 0, lub skala Apgar (0-10)
  3. przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura
  4. ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek,
4. Sposoby przedstawiania surowych danych (szeregi statystyczne: szeregi szczegółowe, rozdzielcze i czasowe ):
  1. histogramy, zwykłe i skumulowane - skala przedziałowa/ilorazowa - zmienne ciągłe
  2. wykresy słupkowe - zmienne dyskretne - realizowane w statistica przez histogram
  3. wykresy kołowe - wszystkie skale
  4. łodyga i liście - skala przedziałowa /ilorazowa (diagram łodyga i liście - stat. podstawowe)
  5. wykresy rozrzutu - skala przedziałowa/ilorazowa
5. Elementy rachunku prawdopodobieństwa:
  1. wynik badania jako zmienna losowa
  2. częstotliwościowa definicja prawdopodobieństwa
  3. Zdarzenia zależna i niezależne, reguły działań dla zdarzeń niezależnych
  4. Prawdopodobieństwo warunkowe i reguły Bayesa
    1. P(A|B)=P(A∩B)/P(B)
    2. P(A|B)=P(B|A)P(A)/P(B)
    3. czułość testu diag.: prawdopodobieństwo że test wypadnie dodatnio zakładając, że pacjent jest rzeczywiście chory.
    4. swoistość testu diag.: prawdopodobieństwo że test wypadnie ujemnie zakładając, że pacjent nie jest chory.
Statystyka opisowa+ wykres ramka wąsy.
1. miary położenia - tendencji centralnej:
  1. średnia arytmetyczna, ważona - wrażliwa na wartości odstające
  2. mediana
  3. moda
  4. kwartyle, percentyle
2. miary zmienności
  1. wariancja
  2. odchylenie standardowe
  3. odchylenie ćwiartkowe
  4. współczynnik zmienności lub
    
    Men
    
    women
    
    height
    
    175 +- 15 cm 0.0857
    
    165+- 14 cm 0.0848
    
    mass
    
    75 +- 10 kg 0.13
    
    55+-9 kg 0.16
3. miary symetrii (Histogram --> rozkład prawdopodobieństwa: zmienne dyskretne i ciągłe, funkcja gęstości i dystrybuanta.)
  1. kurtoza K>0 - bardziej smukła niż normalny (rozkład leptokurtyczny), K<0 mniej smukła niż normalny (rozkład platokurtyczny)

skośność (współczynnik symetrii) A_s>0 - mediana i moda na lewo od średniej (symetria prawostronna - Mo), A_s<0 symetria lewostronna - Mo>Me>.

lub wersji pozycyjnej:

graficzna prezentacja statystyk:

rysunek ramka wąsy

Rozkłady prawdopodobieństwa, w szczególności rozkład normalny, przedział ufności, wartości krytyczne, centralne twierdzenie graniczne, rozkład t-studenta.

Histogram --> rozkład prawdopodobieństwa: zmienne dyskretne i ciągłe, funkcja gęstości i dystrybuanta.

rodzaj rozkładów prawdopodobieństwa:

symetryczny

asymetryczny

o kształcie J

multimodalny

Rozkład normalny

definicja

właściwości: wartość średnia, wariancja, odchylenie standardowe

standaryzacja

kwartyle i inne dla N(0,1) Q₁=-0.67, Q₃=0.67

±σ → 68%

±2σ → 95%

±3σ → 99%

przedział ufności, poziom istotności, wartości krytyczne

Inne rozkłady: Poison, binomialny - mogą być często przybliżane rozkładem normalnym

Centralne twierdzenie graniczne

Jeśli będziemy brali średnie n-elementowych próbek z dowolnej populacji (dystrybucji) to będą one w przybliżeniu miały rozkład normalny, którego średnia to średnia populacji, a odchylenie standardowe to (odchylenie populacji)/pierwiastek(n)

Przedział ufności dla średniej ze znaną i nieznaną wariancją populacji

wariancja próbkowania i błąd standardowy (SEM)

średnia próbki jest dobrym nieobciążonym estymatorem średniej populacji

jeśli znamy wariancję populacji - - to możemy oszacować przedział ufności dla prawdziwej średniej populacji. Zakładając, że średnia z próbki powinna z dużym prawdopodobieństwem znajdować się w przedziale ufności określonym przez średnią z populacji

jeśli znamy tylko wariancję próbki to stosujemy rozkład t-studenta z n-1 stopniami swobody - zmienna

Wartości krytyczne rozkładu dla danego poziomu istotności

Dwa sformułowania: w przedziale ufności z prawdopodobieństwem 1-α znajduje się średnia z populacji. W (1-α)*100% przedziałów ufności utworzonych dla losowo wybranych próbek znajduje się średnia z populacji.

Testy dla jednej próbki, schemat 5 punktów, rodzaje błędów.

Testowanie hipotez:

Hipoteza H₀ i H₁ - alternatywna, poziom istotności α

Błąd pierwszego i drugiego rodzaju, moc testu.

prawdopodobieństwo

H₀ prawdziwa

H₁ prawdziwa

Nie odrzucamy H₀

ok - 1-α

β – błąd 2 rodzaju

akceptacja H₁

α - błąd 1 rodzaju

ok - 1-β

Moc testu to prawdopodobieństwo 1-β, że jeśli hipoteza H₁ jest prawdziwa to H₁ zostanie zaakceptowana.

Test t dla jednej próbki (rozkład Gaussa lub duża próbka)

H₀: μ=μ₀, σ=σ₀; H₁:μ≠μ₀, σ=σ₀ for α=0.05

znajdź

oblicz t_α_/2i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -t_α_/2 i t_α_/2  jeśli tak to nie mamy podstaw do odrzucenia H₀

wartość P - Jeśli P>α → wybieramy H₀, jeśli P<α → odrzucamy H₀

Analiza graficzna błędów I i II rodzaju na przykładzie testu t dla jednej grupy.

Analiza mocy testu - dobór wielkości grupy i wartości α.

Test t a przedział ufności.

Testy jednostronne P_jedn=P/2, zwrócić uwagę na znak t.

schemat 5 punktów

Zdefiniuj hipotezę zerową i alternatywną, oraz poziom istotności

Zbierz odpowiednie dane

Oblicz wartość statystyki

Oblicz wartości krytyczne odpowiedniego rozkładu, lub/i wartość P.

Zinterpretuj wyniki.

Testy t-studenta dla dwóch próbek zależnych i niezależnych.

Test t dla dwóch próbek zależnych (rozkład normalny różnicy d)

H₀: μ₁=μ₂, H₁:μ₁≠μ₂, for α=0.05

znajdź

, gdzie S dotyczy d

oblicz t_α_/2i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -t_α_/2 i t_α_/2  jeśli tak to akceptujemy H₀

wartość P ?

Test t dla dwóch próbek niezależnych (rozkład normalny w obu próbkach, równe wariancje, i wielkości prób)

H₀: μ₁=μ₂, σ₁=σ₂; H₁:μ₁≠μ₂, σ₁=σ₂ for α=0.05 and n₁=n₂=n

, gdzie i ilość stopni swobody df=2n-2

oblicz t_α_/2i sprawdź czy t należy do przedziału ufności, czyli, czy jest między -t_α_/2 i t_α_/2  jeśli tak to akceptujemy H₀

wartość P ?

Istnieją też wersje dla różnych wielkości prób i nierównych wariancji

Testy t dla dwóch próbek niezależnych o różnych wariancjach i różnych rozmiarach

Sprawdzanie normalności przy pomocy testu Shapiro-Wilka: histogramy lub wykresy normalności

Sprawdzanie równości wariancji przy pomocy testu

Testy jednostronne a test dwustronny.

Testy nieparametryczne dla dwóch próbek: Wilcoxon i Mann-Whitney.

Testy dla próbek zależnych:

test znaków (zmienna co najmniej w skali porządkowej, zmienna w skali interwałowej nie musi mieć rozkładu normalnego)

Tworzymy pary wyników x_i i y_i

Statystyka W to liczba par w których x_i > y_i,podlega rozkładowi dwumianowamu

H₀: ϕ₁= ϕ₂ H₁: ϕ₁≠ϕ₂

test rangowy (Wilcoxona) (zmienna w skali interwałowej).

Tworzymy pary wyników z_i= x_i - y_i

Następnie szeregujemy z_i wg bezwzględnej wartości od najmniejszej do największej. Odrzucamy z_i=0

Przypisujemy kolejne rangi, tak że 1 jest przypisana najmniejszej bezwzględnej wartości, itd.. Gdy mamy kilka takich samych wartości to przypisujemy im rangę równą średniej rozpinanych rang.

Statystyka

H₀: ϕ₁= ϕ₂ H₁: ϕ₁≠ϕ₂

Test Manna-Whitneya dla próbek niezależnych

H₀: P(X > Y) =P(Y > X) H₁: P(X > Y) ≠ P(Y > X) lub ew. dla próbek symetrycznych H₀: ϕ₁= ϕ₂ H₁: ϕ₁≠ϕ₂

rangujemy wyniki z obu próbek

Obliczamy statystykę U

U jest równe ilości przypadków kiedy zmienna ze zbioru 1 ma większą rangę niż zmienna ze zbioru 2. Dla wygody przyjmujemy, że zbiór 1 ma mniejsze rangi.

Inny sposób: Niech R₁ i R₂ to odpowiednio sumy rang dla zbiorów 1 i 2. Wówczas

U jest stabelaryzowane dla małych grup (n₁,n₂ ≤20). Dla dużych próbek może być przybliżone rozkładem normalnym. Gdy wartość U jest dostatecznie mała to odrzucamy H₀. Wartość oczekiwana U gdy H₀ jest prawdziwa wynosi n₁n₂/2

Schemat testów:

rodzaj testu: porównanie lub zależność

skala pomiarowa

wybór testu

hipotezy H₀ i H₁

wynik: P

Interpretacja wyniku

Relacja między danymi (korelacja, regresja)

Jeśli jednocześnie zachodzą (relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych) wtedy stosujemy współczynnik korelacji liniowej Pearsona r

r² – jest miarą (ułamkową) zmienności y, która może być wyjaśniona jej liniową zależnością od x --> rysunek przy regresji

Testowanie hipotez:

H₀: ρ=0, H₁: ρ≠0  zmienna testowa t-student test z n-2 stopniami swobody

H₀: ρ=ρ₀, H₁: ρ≠ρ₀  zmienna testowa Gaussian test - transformacja odwrotna

Przedział ufności dla z -->

Jeśli zachodzi któryś z następujących warunków (jedna ze zmiennych jest w skali porządkowej, żadna zmienna nie ma rozkładu normalnego, mała próbka, zależność nieliniowa) wtedy stosujemy współczynnik korelacji Spearmana

r_s – r obliczony dla rang

r_s² nie może być interpretowany tak jak r²

Testowanie hipotez jak w przypadku r

regresja liniowa – obliczana gdy zachodzą jednocześnie (liniowa zależność między zmiennymi, niezależne wyniki (nie dla tego samego pacjenta), rozkład zmiennej zależnej y dla danej zmiennej niezależnej x jest normalny, wariancja y jest taka sama dla każdego x, x może być mierzony bez błędu, rozkład normalny reszt)

y=a+bx – współ. a i b liczone metodą najmniejszych kwadratów.

testowanie hipotez dla b - test F dla ilorazu odchyleń kwadratowych zmienność reg./zmienność res.:

H₀: β=0, H₁: β≠0

b* w statistice to po prostu r.

Yüklə 68,55 Kb.

Dostları ilə paylaş: