← www.metal.agh.edu.pl/~regulski


inżynieria wiedzy

indukcja reguł



indukcja reguł: wykłady
strona główna przedmiotu



SCENARIUSZE ZAJĘĆ:

Lab 1. Indukcja drzew klasyfikacyjnych.

    → Zbiór Adult (serwer sendzimir)

	WPROWADZENIE.

	1. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income.
	2. Zachowaj widok przewijalny drzewa.
	3. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income z walidacją 5-krotnym sprawdzianem krzyżowym.
	4. Porównaj obydwa drzewa i wskaż różnice.
	5. Określ ważność predyktorów z użyciem wykresu.
	6. Odczytaj i sformalizuj na podstawie drzewa reguły.
	7. Oceń pewność (prawdopodobieństwo) tych reguł oraz ich wsparcie.
	8. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
	9. Wyciągnij wnioski.

	HIPOTEZY i weryfikacja hipotez.

Lab 2. Indukcja drzew regresyjnych CART i klasyfikacyjnych CHAID.

	1. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART, 
		a potem algorytmem ogólnym CART z walidacją 5-krotnym sprawdzianem krzyżowym (GC&RT: Data mining, OGÓLNE modele CART).
	2. Dokonaj wyboru drzewa na podstawie kosztu SK (sprawdzianu krzyżowego) i resubstytucji (GC&RT).
	   Oceń drzewo: współczynnik determinacji drzewa (R^2); wariancja w liściach.
	3. Wykonaj ocenę ważności predyktorów.
	4. Odczytaj reguły dla liści o najmniejszej wariancji. Oceń ich wsparcie.
	5. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. 

	6. Wykonaj drzewo klasyfikacyjne dla zmiennej Income z użyciem algorytmu CHAID (interakcyjne).
	7. Określ ważność predyktorów z użyciem wykresu.
	8. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
	9. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART (poprzednie zajęcia) i CHAID.

	10. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe.
	11. Wyciągnij wnioski, zinterpretuj modele.
	12. Przedstaw rezultaty.

	13. Wybierz i przygotuj dane do projektu. Wejdź na stronę: http://archive.ics.uci.edu/ml/

Projekt : Indukcja drzew decyzyjnych:

	
	1. Wejdź na stronę: http://archive.ics.uci.edu/ml/					
	2. Wybierz dane do swojego projektu	
	3. Przygotuj wybrany przez siebie zbiór danych do pracy w STATISTICA. 	
	4. Wybierz zmnienne do analizy - uzasadnij.
	5. Postaw cel analizy.
	6. Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej
	7. 	Utwórz drzewo decyzyjne (wybranym algorytmem) dla każdej zmiennej zależnej (we wszystkich hipotezach). 		
		Jeśli zmienna zależna jest ilościowa, utwórz drzewo regresyjne. 		
		Wybierz najlepsze drzewo na podstawie błędu klasyfikacji lub sekwencji kosztów SK (spr. krzyż.) i resubstytucji.
	8. 	Określ ważnoœć predyktorów z użyciem wykresu.
	9. 	Odczytaj i sformalizuj na podstawie drzewa 3-5 reguł dla najbardziej wyrazistych klas 
		lub dla liści o najmniejszej wariancji (dla każdej hipotezy).
	10. 	Oceń pewność (prawdopodobieństwo) tych reguł (w drzewie regresyjnym oceń wariancję w liściach). Oceń ich wsparcie.
	11. 	Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błšd drzewa (o ile to drzewo klasyfikacyjne). 
		Dla drzew regresyjnych oceń koszt resubstytucji i SK.
	12. 	Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu.
		Dla drzew regresyjnych porównaj współczynnik determinacji drzewa (R^2) i wariancję w liściach.

	13. 	Wykonaj sprawozdanie z drzew decyzyjnych.  (regulski@agh.edu.pl; temat i nazwa pliku: indukcja_drzew_2018_[nazwiska])




Narzędzia:

  → (licencje na AGH:) STATISTICA
  → (licencje na AGH:) MATLAB 7.4; SPSS 12 i 14; CLEMENTINE 10.1 PL

  → STATISTICA - StatSoft
  → IBM- SPSS Statistics
  → środowisko R
  → Clementine - IBM
  → Oracle Data Mining
  → Enterprise Miner SAS
  → IBM DB2 Intelligent Miner
  → Mine Set - Silicon Graphics
  → Weka
  → RapidMiner
  → Data Mining Client for Excel
  → The Dap Project for Statistics and Graphics
  → GNU PSPP - a program for statistical analysis
  → OpenStat
  → Statistical Lab

Przydatne linki:

  → Uczelnia on-line (http://wazniak.mimuw.edu.pl/) - Eksploracja danych
Wykłady prof. dr. hab. inż. Tadeusza Morzego
Projekt sfinansowano ze środków Europejskiego Funduszu Społecznego z programu Sektorowy Program Operacyjny Rozwój Zasobów Ludzkich 2004 - 2006.

  → Otwarte zbiory danych na UC Irvine Machine Learning Repository
  → Otwarte zbiory danych na Data Mining Community's Top Resource
  → inne otwarte zbiory danych

  → Internetowy Podręcznik Statystyki

Aby przeszukać polską edycję Internetowego Podręcznika Statystyki pod kątem określonych pojęć statystycznych, podaj poniżej słowo kluczowe albo wyrażenie:


mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2018