dr inż. Krzysztof Regulski ← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych - niestacjonarne]
|
Eksploracja Danych - niestacjonarne Projekt 1.
|
Projekt 1: hipotezy, statystyki opisowe, badanie zależności, wybór zmiennych 1. Wejdź na stronę: http://archive.ics.uci.edu/ml/ 2. Wybierz dane do swojego projektu 3. Przygotuj wybrany przez siebie zbiór danych do pracy w STATISTICA. 4. Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej ze swoich hipotez. Statystyki opisowe: (1)N ważnych; (2)% Ważnych; (3)średnia; (5)Mediana; (6)Moda; (9)Minimum; (10)Maksimum; (14)Wariancja; (15)Odch.std; 5. Opracuj tabele liczności dla KAżDEJ ZMIENNEJ jakościowej z hipotez. 6. Opracuj tabelę wielodzielczą dla zmiennych jakościowych wybranych do analizy. LUB: Opracuj podobną tabelę raportującą (Menu: Dane | Tabele raportujące). 7. Opracuj histogram skategoryzowany dla zmiennych zależnych względem (grupująca) wybranych do analizy zmiennych. 8. Opracuj wykres średnich w grupach (wykres interakcji LUB prosta ANOVA) dla wartości wybranych do analizy. 9. Wykonaj macierz korelacji dla wszystkich zmiennych ilościowych (statystyki podstawowe i tabele); 10. Wykonaj obliczenia testu Chi^2 dla predyktorów jakościowych i ilościowych (menu: Data Mining || dobór i eliminacja zmiennych); Przedstaw diagram ważności. 11. Wykonaj wykresy ramka-wąsy dla wszystkich zmiennych ilościowych z hipotez. Wybierz dwie pary zmiennych (ilościowa-jakościowa) i wykonaj wykresy skategoryzowane ramka-wąsy. 12. Wykonaj test normalny dla zmiennych - oznacz wartości odstające (Statystyki opisowe | karta Odporne LUB Dane | Czyszczenie Danych | Zamień odstające) 13. Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych. Wykonaj wykresy rozrzutu dla tych samych zmiennych, ale skategoryzowane względem wybranej zmiennej jakościowej. 14. Napisz opracowanie wyników i wnioski: - jakie zmienne są skorelowane ze zmiennymi zależnymi w ramach postawionych hipotez, - które mają najsilniejszy wpływ na zmienne zależne, - czy zmienne objaśniające są wzajemnie skorelowane? - jakiej postaci jest ta zależność, - czy model może być liniowy?, - jaki jest kierunek zależności? 15. Wyniki zadań 4-14 zbierz w postaci tekstu i obrazków w pliku .DOC, sformułuj wnioski, 16. Nazwę zbioru danych (np. Adult.data) i plik DOC z zadania 15. wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-NS-PROJ1-__nazwiska__): Zachowaj na następne zajęcia plik z danymi (*.sta) i projekt (*.stw) ze STATISTICA EXCEL 1. Wejdź na stronę: http://archive.ics.uci.edu/ml/ 2. Wybierz dane do swojego projektu 3. Przygotuj wybrany przez siebie zbiór danych do pracy w EXCELU. 4. Przeanalizuj zmienne. Postaw cel analizy. 5. Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej (każda oparta na dwóch-trzech zmiennych objaśniających). 6. Wykonaj histogramy dla wszystkich zmiennych z hipotez. Czy istnieją wartości odstające? 7. Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej (z hipotez). Statystyki opisowe: ?rednia; Rozstęp; Wariancja; Odch.std; 8. Zbuduj macierz korelacji 9. Opracuj wykres średnich w grupach (wykres przestawny); pdpowiedź: zmienna dla której liczycie średnią musi być ilościowa, zmienna grupująca - jakościowa. 10. Dla zmiennych z hipotez opracuj wykresy rozrzutu (zmienne ilościowe). Skategoryzowane wykresy rozrzutu jeśli dysponujesz zmienną grupującą. 11. Dla zmiennych z hipotez opracuj tabele liczności (tabele przestawne). 12. Wyniki zadań zbierz w postaci tekstu i obrazków w pliku .DOC, sformułuj wnioski. 13. Nazwę zbioru danych (np. Adult.data) i plik DOC wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-NS-PROJ1-__nazwiska__): Zachowaj na następne zajęcia plik z danymi
|
|
|