dr inż. Krzysztof Regulski
← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych - niestacjonarne]


Eksploracja Danych - niestacjonarne

Projekt 1.



    → Otwarte zbiory danych na UC Irvine Machine Learning Repository


	Projekt 1: hipotezy, statystyki opisowe, badanie zależności, wybór zmiennych
	
	1. Wejdź na stronę: http://archive.ics.uci.edu/ml/					
	2. Wybierz dane do swojego projektu		
	3. Przygotuj wybrany przez siebie zbiór danych do pracy w STATISTICA.
	4. Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej ze swoich hipotez.
		Statystyki opisowe: 	(1)N ważnych; (2)% Ważnych; (3)średnia; 
					(5)Mediana; (6)Moda; (9)Minimum; 
					(10)Maksimum; (14)Wariancja; (15)Odch.std;
	5. Opracuj tabele liczności dla KAżDEJ ZMIENNEJ jakościowej z hipotez.
	6. Opracuj tabelę wielodzielczą dla zmiennych jakościowych wybranych do analizy.
		LUB:  Opracuj podobną tabelę raportującą (Menu: Dane | Tabele raportujące). 
	7. Opracuj histogram skategoryzowany dla zmiennych zależnych względem (grupująca) wybranych do analizy zmiennych. 
	8. Opracuj wykres średnich w grupach (wykres interakcji LUB prosta ANOVA) dla wartości wybranych do analizy. 
	9. Wykonaj macierz korelacji dla wszystkich zmiennych ilościowych (statystyki podstawowe i tabele);
	10. Wykonaj obliczenia testu Chi^2 dla predyktorów jakościowych i ilościowych 
		(menu: Data Mining || dobór i eliminacja zmiennych);
		Przedstaw diagram ważności.
	11. Wykonaj wykresy ramka-wąsy dla wszystkich zmiennych ilościowych z hipotez.
	    Wybierz dwie pary zmiennych (ilościowa-jakościowa) i wykonaj wykresy skategoryzowane ramka-wąsy.
	12. Wykonaj test normalny dla zmiennych - oznacz wartości odstające 
		(Statystyki opisowe | karta Odporne LUB Dane | Czyszczenie Danych | Zamień odstające)
	13. 	Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych.
		Wykonaj wykresy rozrzutu dla tych samych zmiennych, ale skategoryzowane względem wybranej zmiennej jakościowej.

	14. Napisz opracowanie wyników i wnioski: 
	- jakie zmienne są skorelowane ze zmiennymi zależnymi w ramach postawionych hipotez, 
	- które mają najsilniejszy wpływ na zmienne zależne,
	- czy zmienne objaśniające są wzajemnie skorelowane?
	- jakiej postaci jest ta zależność,
	- czy model może być liniowy?,
	- jaki jest kierunek zależności?	
	
	15. Wyniki zadań 4-14 zbierz w postaci tekstu i obrazków w pliku .DOC, sformułuj wnioski,  
	16. Nazwę zbioru danych (np. Adult.data) i plik DOC z zadania 15. wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-NS-PROJ1-__nazwiska__):
	
	Zachowaj na następne zajęcia plik z danymi (*.sta) i projekt (*.stw) ze STATISTICA


EXCEL

	1. Wejdź na stronę: http://archive.ics.uci.edu/ml/					
	2. Wybierz dane do swojego projektu		
	3. Przygotuj wybrany przez siebie zbiór danych do pracy w EXCELU.
	4. Przeanalizuj zmienne. Postaw cel analizy.
	5. Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej 
	   (każda oparta na dwóch-trzech zmiennych objaśniających).			
	6. Wykonaj histogramy dla wszystkich zmiennych z hipotez. Czy istnieją wartości odstające?	
	7. Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej (z hipotez).
		Statystyki opisowe: ?rednia; Rozstęp; Wariancja; Odch.std;	
	8. Zbuduj macierz korelacji
	9. Opracuj wykres średnich w grupach (wykres przestawny); 
		pdpowiedź: zmienna dla której liczycie średnią musi być ilościowa, zmienna grupująca - jakościowa. 
	10. Dla zmiennych z hipotez opracuj wykresy rozrzutu (zmienne ilościowe). 
		Skategoryzowane wykresy rozrzutu jeśli dysponujesz zmienną grupującą.		
	11. Dla zmiennych z hipotez opracuj tabele liczności (tabele przestawne).
	12. Wyniki zadań zbierz w postaci tekstu i obrazków w pliku .DOC, sformułuj wnioski.
	13. Nazwę zbioru danych (np. Adult.data) i plik DOC wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-NS-PROJ1-__nazwiska__):
	
	Zachowaj na następne zajęcia plik z danymi 


 


mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2018