• David Chudán

Velká anketa v oblasti data science a machine learning

Aktualizace: kvě 21

Kaggle je jeden z nejznámnějších serverů pro data science a machine learning komunitu. Je výborným zdrojem obrovského množství datasetů, u kterých uživatelé konkrétní datasety zpracovávají do tzv. Kernels, analýz řešených pomocí Jupyter Notebooks. Tyto zprávy tedy kombinují text a zdrojový kód (nejčastěji v Pythonu) a ukazují, jakým způsobem konkrétní analytici datasety zpracovávají, což je výborný zdroj inspirace a rovněž zdroj pro (velmi praktické) studium. O jednotlivých zpracování je možné hlasovat, u každého datasetu je tedy seřazený seznam těch nejlépe zpracovaných řešení. Dále Kaggle nabízí soutěže (competitions), kde firmy či další instituci nabízejí většinou hodně komplexní datasety a uživatele vybízejí pomocí price money, které se často pohybují v desetitisícech dolarů, vyřešit daný problém. Zde má ovšem jednotlivec mizivou šanci uspět, soutěžím věnují týmy složené z mnoha analytiků, kteří tomu nepochybně věnují značné množství času. A konkurence je zde značná, například v této konkrétní soutěži, věnující se odhadu prodejů jednotlivých typů produktů ve Walmartu, se aktuálně věnuje 2644 týmů (po dobu psaní příspěvku se počet týmů zvedl o dva :-) ). To jsem ale trochu odbočil od hlavního tématu, pouze jsem chtěl poukázat na významnost serveru a jeho všeobecnou známost a oblíbenost v prostředí data science a machine learning. No a tento server uspořádal velkou anketu, na kterou odpovědělo téměř 20 000 zaregistrovaných uživatelů Kaggle. Otázky byly různorodé, od socioekonomických, až po otázky na konkrétní používané nástroje a technologie. Zprávu najdete zde a já přináším několik pro mě zajímavých zjištění: - Věkově dominují mileniáni, nejčastější věková skupina uživatelů je 25-29 let, - komunita jede přes vzdělání, 19 % má titul Ph.D., - nejčastější činností není pro analytiky vytváření modelů, ale základní analyzování a porozumění datům, - 83 % analytiků používá jako IDE prostředí Jupyter, - z používaných metod vedou ty jednodušší, aneb není třeba vše řešit pomocí deep learningu - vede linární a logistická regrese následovaná rozhodovacími stromy, - z enterprise nástrojů vede AWS následovaný Google Cloud Platform a MS Azure. Ostatní nástroje jsou zmiňovány minimálně.

  • Twitter Clean Grey
  • LinkedIn Clean Grey