← www.metal.agh.edu.pl/~regulski/ [Eksploracja danych]
|
Eksploracja Danych Ćwiczenia projektowe 4. Indukcja drzew decyzyjnych
|
Indukcja drzew decyzyjnych: 1. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla każdej zmiennej zależnej (we wszystkich hipotezach) z walidacją 5-krotnym sprawdzianem krzyżowym. Jeśli zmienna zależna jest ilościowa, utwórz drzewo regresyjne algorytmem GC&RT (z walidacją krzyżową) GC&RT, to General CART, czyli "Ogólne modele CART". (Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych). Wybierz najlepsze drzewo na podstawie sekwencji kosztów SK (spr. krzyż.) i resubstytucji. 2. Określ ważność predyktorów z użyciem wykresu. 3. Odczytaj i sformalizuj na podstawie drzewa 3-5 reguł dla najbardziej wyrazistych klas lub dla liści o najmniejszej wariancji (dla każdej hipotezy). 4. Oceń pewność (prawdopodobieństwo) i wsparcie tych reguł (w drzewie regresyjnym oceń wariancję w liściach). 5. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa (o ile to drzewo klasyfikacyjne). Dla drzew regresyjnych: oceń koszt resubstytucji i SK; oblicz współczynnik determinacji drzewa (R^2); oceń wariancję w liściach. 6. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID. Dla drzew regresyjnych porównaj liczbę liści, srukturę drzewa i wariancję w liściach w modelach GC&RT i CHAID. 7. Wykonaj sprawozdanie z powyższych zadań. Sprawozdanie powinno zawierać postawione poprzednio hipotezy. Na podstawie reguł z modelu CART i CHAID oceń prawdziwość hipotez. Sprawozdanie wysłać mailem: (regulski@agh.edu.pl; Subject i nazwa pliku: ED-PROJ4-GRUPA___-ZESPÓŁ___) | |
|