← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych]


Eksploracja Danych

Laboratoria 1.
Excel



    → Przykład histogramów w Excelu
    → Przykład rysowania rozkładu normalnego w Excelu
    → Zbiór Adult (próba losowa w Excelu) - [adult-proba.xlsx]
    → gaz.xls


GAZ.xls

	Plik gaz.xls zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, 
	dobowej prędkości wiatru oraz dni wolnych. Dane dotyczą jednego sezonu grzewczego w kilku miastach. 

	a.	Sprawdź, czy zużycie gazu jest skorelowane ze średnią temperaturą dobową.
		-- stwórz macierz korelacji dla wszystkichn zmiennych
	b.	Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model.
	c.	Sprawdź, czy zużycie gazu jest skorelowane z prędkością wiatru oraz faktem, czy dzień jest wolny czy pracujący.
            → gaz_rozw.xls
            → funkcja REGLINP
            → analiza danych - tutorial


ADULT-PROBA.xlsx :
1. 	Narysuj histogram wieku z pliku adult-proba.xlsx
	Narysuj histogram skategoryzowany względem wybranej zmiennej jakościowej (Age/Income/etc.).
2. 	Policz wartość oczekiwaną dla wieku
3. 	Policz odchylenie standardowe dla wieku
4. 	Wyznacz gęstości zgodne z rozkładem normalnym dla określonych przez siebie wartości wieku 
	(najlepiej od 0-100 lat z krokiem 1).
5.	Wykreśl rozkład normalny wieku.
6. 	Wykonaj test 3 sigma na zmiennych ilościowych.
7.	Narysuj wykres ramka-wąsy dla zmiennej hours-per-week (pudełkowy, skrzynkowy, skrzynka-wąsy, średnia-błędy, boxplot, candlestick, etc...)
	Narysuj wykres ramka-wąsy dla zmiennej hours-per-week dla kobiet i mężczyzn.
8.	Wykonaj wykresy rozrzutu dla trzech par zmiennych ilościowych.
	Narysuj wykresy rozrzutu skategoryzowane względem wybranej zmiennej jakościowej (Age/Income/etc.)..
9.	Opracuj tabelę przestawną dla zmiennych: education; sex; Income 
	## Opracuj tabelę przestawną dla każdej postawionej hipotezy badawczej.
10. 	Sprawdź, czy zmienna Hours-per-week jest skorelowana z innymi zmiennymi ilościowymi (policz współczynniki korelacji).
11.	Zbuduj model regresji liniowej do oceny wpływu wybranej (skorelowanej) zmiennej na hours-per-week. 
	Zweryfikuj i zinterpretuj otrzymany model.
12. 	Przedstaw wyniki do oceny. 


DODATKOWO DO ZACHWOWANIA NA KOLEJNE ZAJĘCIA [najlepiej wysłać do siebie mailem]:
1. 	Wymyśl nazwę i cel organizacji, dla której będziesz wykonywał analizę.
2.	Postaw cel analizy.
3.	Sformułuj trzy hipotezy badawcze, każda oparta o inną zmienną zależną 
	(każda oparta na trzech zmiennych objaśniających).
	## Opracuj tabelę przestawną dla każdej postawionej hipotezy badawczej.
4.	Dokonaj doboru zmiennych do modeli.
5. 	Z wykorzystaniem narzędzi z pierwszej części zajęć, określ zależności pomiędzy zmiennymi z hipotez. 
6. 	Zbadaj możliwość zastosowania regresji liniowej.
 
            → 01_tabele_przestawne.pptx



mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2019