← www.metal.agh.edu.pl/~regulski
|
Elementy sztucznej inteligencji Informatyka Stosowana - Studia Podyplomowe
| ||
SCENARIUSZE ZAJĘĆ: 1. Analiza danych >Wykład: Analiza danych <
→ Przykład histogramów w Excelu GAZ.xls Plik gaz.xls zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, dobowej prędkości wiatru oraz dni wolnych. Dane dotyczą jednego sezonu grzewczego w kilku miastach. a. Sprawdź, czy zużycie gazu jest skorelowane ze średnią temperaturą dobową. -- stwórz macierz korelacji dla wszystkichn zmiennych b. Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model. c. Sprawdź, czy zużycie gazu jest skorelowane z prędkością wiatru oraz faktem, czy dzień jest wolny czy pracujący.→ gaz_rozw.xls → funkcja REGLINP → analiza danych - tutorial
ADULT: 1. Narysuj histogramy wieku z pliku adult-proba.xlsx 2. Policz wartość oczekiwaną dla wieku 3. Policz odchylenie standardowe dla wieku 4. Wyznacz gęstości zgodne z rozkładem normalnym dla określonych przez siebie wartości wieku (najlepiej od 0-100 lat z krokiem 1). 5. Wykreśl rozkład normalny wieku. 6. Wykonaj test 3 sigma na zmiennych ilościowych. 7. Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych. 8. Opracuj tabelę przestawną dla zmiennych: education; sex; Income 9. Wymyśl nazwę i cel organizacji, dla której będziesz wykonywał analizę. 10. Postaw cel analizy. 11. Sformułuj trzy hipotezy badawcze, każda dla innej zmiennej zależnej (każda oparta na dwóch-trzech zmiennych objaśniających). 12. Pobierz plik adult.data. Zaimportuj dane do Excela. Dodaj nagłówki kolumn według przykładu adult-proba.xlsx 13. Opracuj tabele przestawne dla postawionych hipotez. 14. Zgłoś się po zaliczenie ćwiczeń.
→ Zbiór Adult (serwer sendzimir) 1. Opracuj podstawowe statystyki dla KAŻDEJ ZMIENNEJ ilościowej. Statystyki opisowe: (1)N ważnych; (2)% Ważnych; (3)średnia; (4)Przedział ufności 95%; (5)Mediana; (6)Moda; (7)Liczność mody; (8)Suma; (9)Minimum; (10)Maksimum; (11)Dolny kwartyl; (12)Górny kwartyl; (13)Rozstęp; (14)Wariancja; (15)Odch.std; 2. Opracuj tabele liczności dla KAżDEJ ZMIENNEJ jakościowej 3. Opracuj tabelę wielodzielczą dla zmiennych: education; sex; Income (lub innych, wybranych do analizy) Opracuj podobną tabelę raportującą (Menu: Dane | Tabele raportujące). 4. Opracuj histogram skategoryzowany dla Income względem płci; (lub innych, wybranych do analizy) 5. Opracuj wykres średnich w grupach (wykres interakcji LUB prosta ANOVA) dla wartości: wiek wzgl. płci; hours-per-week wzgl. race; education-num wzgl. work_class; (lub innych, wybranych do analizy) 6. Wykonaj macierz korelacji dla wszystkich zmiennych ilościowych (statystyki podstawowe i tabele); 7. Wykonaj obliczenia testu Chi^2 dla predyktorów jakościowych i ilościowych (menu: Data Mining || dobór i eliminacja zmiennych); Przedstaw diagram ważności. 8. Wykonaj wykresy ramka-wąsy dla wszystkich zmiennych ilościowych. Wybierz dwie pary zmiennych (ilościowa-jakościowa) i wykonaj wykresy skategoryzowane ramka-wąsy. 9. Wykonaj test normalny dla zmiennych - oznacz wartości odstające (Statystyki opisowe | karta Odporne LUB Dane | Czyszczenie Danych | Zamień odstające) 10. Wykonaj wykresy rozrzutu dla trzech par zmiennych skorelowanych. Wykonaj wykresy rozrzutu dla tych samych zmiennych, ale skategoryzowane względem dochodu (Income).2. Indukcja drzew decyzyjnych: CART, CHAID > Wykład: Klasyfikacja <
→ Zbiór Adult (oryginalne źródło) DRZEWA CART 1. Zaimportuj plik adult.data do STATISTICA. 2. Utwórz drzewo decyzyjne interakcyjne algorytmem CART dla zmiennej zależnej Income. 3. Określ ważność predyktorów z użyciem wykresu. 4. Odczytaj i sformalizuj na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas. 5. Oceń pewność (prawdopodobieństwo) tych reguł. 6. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa. 7. Wykonaj ocenę ważności predyktorów. 8. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. DRZEWA CHAID 1. Utwórz drzewo decyzyjne interakcyjne algorytmem CHAID dla zmiennej zależnej Income. 2. Określ ważność predyktorów z użyciem wykresu. 3. Odczytaj i sformalizuj na podstawie drzewa 5 reguł dla najbardziej wyrazistych klas. 4. Oceń pewność (prawdopodobieństwo) tych reguł. 5. Wygeneruj macierz klasyfikacji (wykres i tabela) oceń całkowity błąd drzewa. 6. Wykonaj ocenę ważności predyktorów. 7. Porównaj prawdopodobieństwo reguł i całkowity błąd klasyfikacji modelu CART i CHAID. 8. Na podstawie wygenerowanych drzew zweryfikowuj swoje hipotezy. Jeśli wygenerowane drzewa nie wystarczają, wykonaj nowe. 9. Wyciągnij wnioski, zinterpretuj modele. DRZEWA REGRESYJNE 1. Wykonaj drzewo regresyjne dla zmiennej hours-per-week najpierw interakcyjne algorytmem CART, potem GC&RT (Data mining, ogólne modele drzew klasyfikacyjnych i regresyjnych). 2. Dokonaj wyboru drzewa na podstawie kosztu SK i resubstytucji (GC&RT). 3. Wykonaj ocenę ważności predyktorów. 4. Odczytaj 5 reguł dla liści o najmniejszej wariancji. 5. Zbuduj drzewo dla 3 najważniejszych predyktorów i porównaj wyniki. 3. Analiza skupień: k-średnich, EM > Wykład: Analiza skupień <
1. Otwórz plik adult.sta w STATISTICA. 2. Dokonaj analizy skupień metodą aglomeracyjną (Statystyka | Wielowymiarowe techniki eksploracyjne | Analiza skupień | Aglomeracja) 3. Odczytaj, które zmienne są najbliższe sobie, a które najbardziej oddalone (macież odległości). Zapisz te pary. 4. Wykonaj losowanie warstwowe (warstwy ustaw w zależnoci od zmiennej zależnej np. Income/50%-50%) tak by uzyskać zbiór około 1000 rekordów, w którym obie klasy są podobnie liczne. 5. Analiza skupień metodą k-średnich (5-krotny sprawdzian krzyżowy) dla wybranych zmiennych (w oparciu o hipotezy). 6. Wykonaj interpretację wyników (opisz charakterystykę poszczególnych skupień na podstawie zmienych jakościowych i ilościowych). 7. Analiza skupień metodą EM. 8. Charakterystyka skupień dla EM. 9. Zgłoś się po zaliczenie ćwiczeń. 4. Machine Learning; Analiza asocjacji > Wykład: Metody Machine Learning <
PROJEKT: 1. Wymyśl nazwę i cel organizacji, dla której będziesz wykonywał analizę na podstawie adult.sta. 2. Postaw cel analizy. 3. Sformułuj dwie-trzy hipotezy badawcze, każda dla innej zmiennej zależnej (każda oparta na trzech zmiennych objaśniających). Stwórz dokument w MSWord, w którym zapiszesz Cel i Hipotezy, a potem umieścisz w nim zrzuty z ekranu i wnioski z kolejnych analiz. (sprawozdanie) 4. Zbadaj zależność zmiennych zależnych od predyktorów jakościowych i ilościowych (menu: Data Mining || dobór i eliminacja zmiennych); 5. Wygeneruj drzewa CART dla swoich hipotez. Oceń ich przydatność (macierz klasyfikacji, wariancja). Oceń hipotezy w kontekście utworzonych drzew, czy się potwierdzają? Zapisz reguły, które potwierdzają lub zaprzeczają hipotezie. Oceń te reguły. Wyciągnij wnioski co do swoich hipotez. 6. Analiza skupień metodą k-średnich dla wybranych zmiennych (w oparciu o hipotezy). Wykonaj interpretację wyników (opisz charakterystykę poszczególnych skupień na podstawie zmienych jakościowych i ilościowych). Porównaj charakterystyki skupień z hipotezami. Jeśli trzeba, wykorzystaj losowanie warstwowe, by osiągnąć skupienie zgodne z hipotezą. Wyciągnij wnioski co do swoich hipotez. 7. Wykonaj niesekwencyjną analizę asocjacji (SAL: menu: Data Mining || Analiza sekwencji, asocjacji, połączeń || niesekwencyjna). Pod uwagę weź zmienne z hipotez. Korygując minimalne wsparcie i ufność wygeneruj reguły zgodne/przeciwne względem hipotez. Wyciągnij wnioski co do swoich hipotez. 8. Zachowaj wyniki swojej pracy. Najlepiej wysłać do siebie mailem. 5. Projekt > Wykład: Sieci Neuronowe <
Oddaj ostateczną wersję projektu. (PLIK: *.DOC, mailem na adres: regulski@agh.edu.pl; Subject: ED-PODYPL-PROJEKT-__nazwisko__) Sprawozdanie z projektu powinno zawierać: - Wstęp: Cel badania. Postawione hipotezy badawcze - Statystyki opisowe zmiennych. Dobór zmiennych do modelu. Analiza zależności. - Opracowanie drzew decyzyjnych i wnioski. - Analizę skupień i wnioski. - Analizę asocjacji (niesekwencyjną) i wnioski. - Podsumowanie w kontekście postawionych hipotez badawczych.
| |||
Narzędzia:
→
(licencje na AGH:) STATISTICA
→ STATISTICA - StatSoft Przydatne linki:
→
Uczelnia on-line (http://wazniak.mimuw.edu.pl/) - Eksploracja danych
→ Otwarte zbiory danych na UC Irvine Machine Learning Repository → Internetowy Podręcznik Statystyki
|