SCENARIUSZE ZAJĘĆ:
Lab 1. Indukcja drzew klasyfikacyjnych.
→ Zbiór Adult (serwer sendzimir)
WPROWADZENIE.
1. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income.
2. Zachowaj widok przewijalny drzewa.
3. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income z walidacją 5-krotnym sprawdzianem krzyżowym.
4. Porównaj obydwa drzewa i wskaż różnice.
5. Określ ważność predyktorów z użyciem wykresu.
6. Odczytaj i sformalizuj na podstawie drzewa reguły.
7. Oceń pewność (prawdopodobieństwo) tych reguł oraz ich wsparcie.
8. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
9. Wyciągnij wnioski.
HIPOTEZY i weryfikacja hipotez.
Lab 2. Indukcja drzew regresyjnych CART i klasyfikacyjnych CHAID.
1. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART,
a potem algorytmem ogólnym CART z walidacją 5-krotnym sprawdzianem krzyżowym (GC&RT: Data mining, OGÓLNE modele CART).
2. Dokonaj wyboru drzewa na podstawie kosztu SK (sprawdzianu krzyżowego) i resubstytucji (GC&RT).
Oceń drzewo: współczynnik determinacji drzewa (R^2); wariancja w liściach.
3. Wykonaj ocenę ważności predyktorów.
4. Odczytaj reguły dla liści o najmniejszej wariancji. Oceń ich wsparcie.
5. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki.
6. Wykonaj drzewo klasyfikacyjne dla zmiennej Income z użyciem algorytmu CHAID (interakcyjne).
7. Określ ważność predyktorów z użyciem wykresu.
8. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
9. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART (poprzednie zajęcia) i CHAID.
10. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe.
11. Wyciągnij wnioski, zinterpretuj modele.
12. Przedstaw rezultaty.
13. Wybierz i przygotuj dane do projektu. Wejdź na stronę: http://archive.ics.uci.edu/ml/
Projekt : Indukcja drzew decyzyjnych:
1. Wejdź na stronę: http://archive.ics.uci.edu/ml/
2. Wybierz dane do swojego projektu
3. Przygotuj wybrany przez siebie zbiór danych do pracy w STATISTICA.
4. Wybierz zmnienne do analizy - uzasadnij.
5. Postaw cel analizy.
6. Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej
7. Utwórz drzewo decyzyjne (wybranym algorytmem) dla każdej zmiennej zależnej (we wszystkich hipotezach).
Jeśli zmienna zależna jest ilościowa, utwórz drzewo regresyjne.
Wybierz najlepsze drzewo na podstawie błędu klasyfikacji lub sekwencji kosztów SK (spr. krzyż.) i resubstytucji.
8. Określ ważnoć predyktorów z użyciem wykresu.
9. Odczytaj i sformalizuj na podstawie drzewa 3-5 reguł dla najbardziej wyrazistych klas
lub dla liści o najmniejszej wariancji (dla każdej hipotezy).
10. Oceń pewność (prawdopodobieństwo) tych reguł (w drzewie regresyjnym oceń wariancję w liściach). Oceń ich wsparcie.
11. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błšd drzewa (o ile to drzewo klasyfikacyjne).
Dla drzew regresyjnych oceń koszt resubstytucji i SK.
12. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu.
Dla drzew regresyjnych porównaj współczynnik determinacji drzewa (R^2) i wariancję w liściach.
13. Wykonaj sprawozdanie z drzew decyzyjnych. (regulski@agh.edu.pl; temat i nazwa pliku: indukcja_drzew_2018_[nazwiska])
|