← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych]


Eksploracja Danych

Indukcja drzew decyzyjnych



Indukcja drzew decyzyjnych:

 1. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income.
 2. Zachowaj widok przewijalny drzewa.
 3. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income z walidacją 5-krotnym sprawdzianem krzyżowym.
 4. Porównaj obydwa drzewa i wskaż różnice.
 5. Określ ważność predyktorów z użyciem wykresu.
 6. Odczytaj i sformalizuj (np. w języku naturalnym) na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas.
 7. Oceń pewność (prawdopodobieństwo) tych reguł. Oceń ich wsparcie.
 8. Wygeneruj macierz klasyfikacji ("obserwowane i przewidywane w klasach": wykres i tabela) oceń całkowity błąd drzewa.
 9. Wykonaj punkty od 3-8 z użyciem algorytmu CHAID.
10. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID.

11. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART, potem ogólnym modelem drzew C&RT (GCART, General CART) 
   (Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych).
12. Dokonaj wyboru drzewa na podstawie kosztu SK i resubstytucji (GC&RT).
13. Oceń wybrane drzewo: policz współczynnik determinacji drzewa (R^2); wariancja w liściach.
14. Wykonaj ocenę ważności predyktorów.
15. Odczytaj 5 reguł dla liści o najmniejszej wariancji.
16. Zapisz te reguły uzwględniając wariancję i średnią.
17. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki.

18. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe.
19. Wykonaj raport z drzew decyzyjnych obejmujące wszystkie potrzebne wnioski i interpretacje 
    (głównie z perspektywy swoich hipotez).

20. Przedstaw wyniki do oceny.

 

 


mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2019