← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych]


Eksploracja Danych

Ćwiczenia projektowe 4.
Indukcja drzew decyzyjnych




Indukcja drzew decyzyjnych:

1. 	Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla każdej zmiennej zależnej 
	(we wszystkich hipotezach) z walidacją 5-krotnym sprawdzianem krzyżowym.
	Jeśli zmienna zależna jest ilościowa, utwórz drzewo regresyjne algorytmem GC&RT (z walidacją krzyżową) 
	GC&RT, to General CART, czyli "Ogólne modele CART".
	(Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych).
	Wybierz najlepsze drzewo na podstawie sekwencji kosztów SK (spr. krzyż.) i resubstytucji.
2. 	Określ ważność predyktorów z użyciem wykresu.
3. 	Odczytaj i sformalizuj na podstawie drzewa 3-5 reguł dla najbardziej wyrazistych klas 
	lub dla liści o najmniejszej wariancji (dla każdej hipotezy).
4. 	Oceń pewność (prawdopodobieństwo) i wsparcie tych reguł (w drzewie regresyjnym oceń wariancję w liściach).
5. 	Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa (o ile to drzewo klasyfikacyjne). 
	Dla drzew regresyjnych: oceń koszt resubstytucji i SK; 	oblicz współczynnik determinacji drzewa (R^2); oceń wariancję w liściach.
6. 	Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID.
	Dla drzew regresyjnych porównaj liczbę liści, srukturę drzewa i wariancję w liściach w modelach GC&RT i CHAID.

7. 	Wykonaj sprawozdanie z powyższych zadań. 
	Sprawozdanie powinno zawierać postawione poprzednio hipotezy. 
	Na podstawie reguł z modelu CART i CHAID oceń prawdziwość hipotez. 
	Sprawozdanie wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-PROJ4-GRUPA___-ZESPÓŁ___)


 


mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2019