← www.metal.agh.edu.pl/~regulski


Elementy sztucznej inteligencji

Informatyka Stosowana - Studia Podyplomowe



>> Literatura <<

SCENARIUSZE ZAJĘĆ:

1. Analiza danych     >Wykład: Analiza danych <

    → Przykład histogramów w Excelu
    → Przykład rysowania rozkładu normalnego w Excelu
    → Zbiór Adult (oryginalne źródło)
    → Zbiór Adult (serwer sendzimir)
    → gaz.xls


GAZ.xls

	Plik gaz.xls zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, 
	dobowej prędkości wiatru oraz dni wolnych. Dane dotyczą jednego sezonu grzewczego w kilku miastach. 

	a.	Sprawdź, czy zużycie gazu jest skorelowane ze średnią temperaturą dobową.
		-- stwórz macierz korelacji dla wszystkichn zmiennych
	b.	Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model.
	c.	Sprawdź, czy zużycie gazu jest skorelowane z prędkością wiatru oraz faktem, czy dzień jest wolny czy pracujący.
            → gaz_rozw.xls
            → funkcja REGLINP
            → analiza danych - tutorial

ADULT:
	1. 	Narysuj histogramy wieku z pliku adult-proba.xlsx
	2. 	Policz wartość oczekiwaną dla wieku
	3. 	Policz odchylenie standardowe dla wieku
	4. 	Wyznacz gęstości zgodne z rozkładem normalnym dla określonych przez siebie wartości wieku 
		(najlepiej od 0-100 lat z krokiem 1).
	5.	Wykreśl rozkład normalny wieku.
	6. 	Wykonaj test 3 sigma na zmiennych ilościowych.
	7.	Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych.
	8.	Opracuj tabelę przestawną dla zmiennych: education; sex; Income  

	9. 	Wymyśl nazwę i cel organizacji, dla której będziesz wykonywał analizę.
	10.	Postaw cel analizy.
	11.	Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej 
		(każda oparta na dwóch-trzech zmiennych objaśniających).
	12.	Pobierz plik adult.data. Zaimportuj dane do Excela. Dodaj nagłówki kolumn według przykładu adult-proba.xlsx 
	13.	Opracuj tabele przestawne dla postawionych hipotez.
	14. 	Zgłoś się po zaliczenie ćwiczeń.
 

    → 01_tabele_przestawne.pptx


STATISTICA: statystyki opisowe, dobór zmiennych.

    → Zbiór Adult (serwer sendzimir)

	1.	Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej.
		Statystyki opisowe: 	(1)N ważnych; (2)% Ważnych; (3)średnia; (4)Przedział ufności 95%; 
					(5)Mediana; (6)Moda; (7)Liczność mody; (8)Suma; (9)Minimum; (10)Maksimum; 
					(11)Dolny kwartyl; (12)Górny kwartyl; (13)Rozstęp; (14)Wariancja; (15)Odch.std;
	2.	Opracuj tabele liczności dla KAżDEJ ZMIENNEJ jakościowej
	3.	Opracuj tabelę wielodzielczą dla zmiennych: education; sex; Income (lub innych, wybranych do analizy) 
		Opracuj podobną tabelę raportującą (Menu: Dane | Tabele raportujące). 
	4.	Opracuj histogram skategoryzowany dla Income względem płci; (lub innych, wybranych do analizy) 
	5.	Opracuj wykres średnich w grupach (wykres interakcji LUB prosta ANOVA) dla wartości: 
		wiek wzgl. płci; 
		hours-per-week wzgl. race; 
		education-num wzgl. work_class; 
		(lub innych, wybranych do analizy) 
	6. 	Wykonaj macierz korelacji dla wszystkich zmiennych ilościowych (statystyki podstawowe i tabele);
	7. 	Wykonaj obliczenia testu Chi^2 dla predyktorów jakościowych i ilościowych 
		(menu: Data Mining || dobór i eliminacja zmiennych);
		Przedstaw diagram ważności.
	8. 	Wykonaj wykresy ramka-wąsy dla wszystkich zmiennych ilościowych.
		Wybierz dwie pary zmiennych (ilościowa-jakościowa) i wykonaj wykresy skategoryzowane ramka-wąsy.
	9. 	Wykonaj test normalny dla zmiennych - oznacz wartości odstające 
		(Statystyki opisowe | karta Odporne LUB Dane | Czyszczenie Danych | Zamień odstające)
	10. 	Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych.
		Wykonaj wykresy rozrzutu dla tych samych zmiennych, ale skategoryzowane względem dochodu (Income).
2. Indukcja drzew decyzyjnych: CART, CHAID     > Wykład: Klasyfikacja <

    → Zbiór Adult (oryginalne źródło)
    → Zbiór Adult (serwer sendzimir)


DRZEWA CART

	1. Zaimportuj plik adult.data do STATISTICA.
	2. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income.
	3. Określ ważność predyktorów z użyciem wykresu.
	4. Odczytaj i sformalizuj na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas.
	5. Oceń pewność (prawdopodobieństwo) tych reguł.
	6. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
	7. Wykonaj ocenę ważności predyktorów.
	8. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. 

DRZEWA CHAID

	1. Utwórz drzewo decyzyjne interakcyjne algorytmem CHAID dla zmiennej zależnej Income.
	2. Określ ważność predyktorów z użyciem wykresu.
	3. Odczytaj i sformalizuj na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas.
	4. Oceń pewność (prawdopodobieństwo) tych reguł.
	5. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa.
	6. Wykonaj ocenę ważności predyktorów.
	7. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID.
	8. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe.
	9. Wyciągnij wnioski, zinterpretuj modele.

DRZEWA REGRESYJNE

	1. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART, potem GC&RT 
	   (Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych).
	2. Dokonaj wyboru drzewa na podstawie kosztu SK i resubstytucji (GC&RT).
	3. Wykonaj ocenę ważności predyktorów.
	4. Odczytaj 5 reguł dla liści o najmniejszej wariancji.
	5. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. 


3. Analiza skupień: k-średnich, EM     > Wykład: Analiza skupień <

	1. Otwórz plik adult.sta w STATISTICA.
	2. Dokonaj analizy skupień metodą aglomeracyjną (Statystyka | Wielowymiarowe techniki eksploracyjne | Analiza skupień | Aglomeracja)
	3. Odczytaj, które zmienne są najbliższe sobie, a które najbardziej oddalone (macież odległości). Zapisz te pary.
	4. Wykonaj losowanie warstwowe (warstwy ustaw w zależnoœci od zmiennej zależnej np. Income/50%-50%) 
	   tak by uzyskać zbiór około 1000 rekordów, w którym obie klasy są podobnie liczne.
	5. Analiza skupień metodą k-średnich (5-krotny sprawdzian krzyżowy) dla wybranych zmiennych (w oparciu o hipotezy).
	6. Wykonaj interpretację wyników (opisz charakterystykę poszczególnych skupień na podstawie zmienych jakościowych i ilościowych).
	7. Analiza skupień metodą EM.
	8. Charakterystyka skupień dla EM.
	9. Zgłoś się po zaliczenie ćwiczeń.


4. Machine Learning; Analiza asocjacji     > Wykład: Metody Machine Learning <

PROJEKT:

	1. Wymyśl nazwę i cel organizacji, dla której będziesz wykonywał analizę na podstawie adult.sta.
	2. Postaw cel analizy.
	3. Sformułuj dwie-trzy hipotezy badawcze, każda dla innej zmiennej zależnej 
	   (każda oparta na trzech zmiennych objaśniających).

	   Stwórz dokument w MSWord, w którym zapiszesz Cel i Hipotezy, a potem umieścisz w nim zrzuty z ekranu i wnioski z kolejnych analiz.
	   (sprawozdanie)

	4. Zbadaj zależność zmiennych zależnych od predyktorów jakościowych i ilościowych (menu: Data Mining || dobór i eliminacja zmiennych);
	5. Wygeneruj drzewa CART dla swoich hipotez. Oceń ich przydatność (macierz klasyfikacji, wariancja). 
	   Oceń hipotezy w kontekście utworzonych drzew, czy się potwierdzają? 
	   Zapisz reguły, które potwierdzają lub zaprzeczają hipotezie. 
	   Oceń te reguły.
	   Wyciągnij wnioski co do swoich hipotez.
	6. Analiza skupień metodą k-średnich dla wybranych zmiennych (w oparciu o hipotezy).
	   Wykonaj interpretację wyników (opisz charakterystykę poszczególnych skupień na podstawie zmienych jakościowych i ilościowych).
	   Porównaj charakterystyki skupień z hipotezami. Jeśli trzeba, wykorzystaj losowanie warstwowe, by osiągnąć skupienie zgodne z hipotezą.
	   Wyciągnij wnioski co do swoich hipotez.
	7. Wykonaj niesekwencyjną analizę asocjacji (SAL: menu: Data Mining || Analiza sekwencji, asocjacji, połączeń || niesekwencyjna). 
	   Pod uwagę weź zmienne z hipotez. 
	   Korygując minimalne wsparcie i ufność wygeneruj reguły zgodne/przeciwne względem hipotez.
	   Wyciągnij wnioski co do swoich hipotez.
	8. Zachowaj wyniki swojej pracy. Najlepiej wysłać do siebie mailem.	


5. Projekt     > Wykład: Sieci Neuronowe <


	Oddaj ostateczną wersję projektu. (PLIK: *.DOC, mailem na adres: regulski@agh.edu.pl; Subject: ED-PODYPL-PROJEKT-__nazwisko__)
	Sprawozdanie z projektu powinno zawierać:
	- Wstęp: Cel badania. Postawione hipotezy badawcze
	- Statystyki opisowe zmiennych. Dobór zmiennych do modelu. Analiza zależności.
	- Opracowanie drzew decyzyjnych i wnioski.
	- Analizę skupień i wnioski.
	- Analizę asocjacji (niesekwencyjną) i wnioski.
	- Podsumowanie w kontekście postawionych hipotez badawczych.
						




Narzędzia:

  → (licencje na AGH:) STATISTICA
  → (licencje na AGH:) MATLAB 7.4; SPSS 12 i 14; CLEMENTINE 10.1 PL

  → STATISTICA - StatSoft
  → IBM- SPSS Statistics
  → środowisko R
  → Clementine - IBM
  → Oracle Data Mining
  → Enterprise Miner SAS
  → IBM DB2 Intelligent Miner
  → Mine Set - Silicon Graphics
  → Weka
  → RapidMiner
  → Data Mining Client for Excel
  → The Dap Project for Statistics and Graphics
  → GNU PSPP - a program for statistical analysis
  → OpenStat
  → Statistical Lab

Przydatne linki:

  → Uczelnia on-line (http://wazniak.mimuw.edu.pl/) - Eksploracja danych
Wykłady prof. dr. hab. inż. Tadeusza Morzego
Projekt sfinansowano ze środków Europejskiego Funduszu Społecznego z programu Sektorowy Program Operacyjny Rozwój Zasobów Ludzkich 2004 - 2006.

  → Otwarte zbiory danych na UC Irvine Machine Learning Repository
  → Otwarte zbiory danych na Data Mining Community's Top Resource
  → inne otwarte zbiory danych

  → Internetowy Podręcznik Statystyki

Aby przeszukać polską edycję Internetowego Podręcznika Statystyki pod kątem określonych pojęć statystycznych, podaj poniżej słowo kluczowe albo wyrażenie:


mail: regulski@agh.edu.pl

©Krzysztof Regulski - Kraków 2018