• David Chudán

Seriál o nástrojích pro data mining / machine learning, ukázka na datech Titanic

Aktualizace: bře 10

V následujícím postupně zveřejňovaném seriálu představím různé webové i cloudové nástroje, které je dnes možné používat pro data mining / machine learning.

Představování funkcionality budu provádět na jednom z nejoblíbenějších datasetů pro účely výuky machine learningu - dataset Titanic. Jak název napovídá, jedná se o data o pasažérech Titanicu a o jejich šancích na přežití. Klasickou úlohou na tomto datasetu je totiž vytvoření klasifikátoru, který bude určovat, zda konkrétní pasažér nehodu přežil, či nepřežil. K tomu slouží několik vysvětlujících atributů a jeden cílový atribut.


Mezi vysvětlující atributy patří:

Pclass - třída, kterou pasažér cestoval

sex - pohlaví

name - jméno cestujícího včetně případných titulů

Age - věk (v celých rocích)

sibsp - počet spolucestujících sourozenců a spolucestující manžel / manželka

parch - počet spolucestujících rodičů / dětí

ticket - číslo lístku

fare - cena jízdného

cabin - číslo kajuty


Cílovým atributem je potom survived, který vyjadřuje, zda daný pasažér cestu Titanic přežil, či nikoliv.


Tento dataset je základem pro tzv. Kaggle competitions, což jsou soutěže vypisované na serveru kaggle.com, kde je cílem vytvořit co nejlepší klasifikační model pro daná data. Soutěže jsou často velice dobře ohodnoceny, a to až v desítkách tisíc dolarů. V těchto soutěžích nicméně jednotlivec může jen těžko uspět, řešením se zabývají celé týmy profesionálů a na soutěžích panuje poměrně tvrdá konkurence. Můžete se podívat na aktuální seznam vypsaných soutěží. Základní přehled o datasetu Titanic na Kagglu je zde, jednotlivá řešení zpracovaná formou Jupiter notebooks potom zde.


Nástroje budu na datasetu porovnávat pomocí následující série kroků:

1. Vizualizační možnosti dat nástroje, exploratory data analysis

2. Odstranění atributů ticket a cabin (důvodem je minimální použitelnost v důsledku vysokého počtu kategorií)

3. Extrakce titulu ze jména, použití titulu jako vlastního atributu. Málo četné tituly budou sloučeny do jedné kategorie.

4. Ošetření chybějících hodnot pomocí průměrných hodnot.

5. Kategorizace věku a jízdného na 5 intervalů.

6. Z atributů parch a SibSp vytvoření nového atributu IsAlone, tedy určení toho, zda osoba cestovala sama či nikoliv.

7. Vytvoření klasifikátorů, porovnání výsledků (pomocí matice záměn i pomocí dostupných křivek)

8. Vytvoření shluků pasažérů.

9. Vytvoření asociačních pravidel.

10. Případně další metody, které daný nástroj podporuje.

11. Možnosti vizualizace výsledků.

5 zobrazení
  • Twitter Clean Grey
  • LinkedIn Clean Grey