← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych]
|
Eksploracja Danych Indukcja drzew decyzyjnych
|
Indukcja drzew decyzyjnych: 1. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income. 2. Zachowaj widok przewijalny drzewa. 3. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income z walidacją 5-krotnym sprawdzianem krzyżowym. 4. Porównaj obydwa drzewa i wskaż różnice. 5. Określ ważność predyktorów z użyciem wykresu. 6. Odczytaj i sformalizuj (np. w języku naturalnym) na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas. 7. Oceń pewność (prawdopodobieństwo) tych reguł. Oceń ich wsparcie. 8. Wygeneruj macierz klasyfikacji ("obserwowane i przewidywane w klasach": wykres i tabela) oceń całkowity błąd drzewa. 9. Wykonaj punkty od 3-8 z użyciem algorytmu CHAID. 10. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID. 11. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART, potem ogólnym modelem drzew C&RT (GCART, General CART) (Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych). 12. Dokonaj wyboru drzewa na podstawie kosztu SK i resubstytucji (GC&RT). 13. Oceń wybrane drzewo: policz współczynnik determinacji drzewa (R^2); wariancja w liściach. 14. Wykonaj ocenę ważności predyktorów. 15. Odczytaj 5 reguł dla liści o najmniejszej wariancji. 16. Zapisz te reguły uzwględniając wariancję i średnią. 17. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. 18. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe. 19. Wykonaj raport z drzew decyzyjnych obejmujące wszystkie potrzebne wnioski i interpretacje (głównie z perspektywy swoich hipotez). 20. Przedstaw wyniki do oceny. | |
|