• David Chudán

Pojmologie, aneb vyznejte se v data analytics, data science, machine learningu...

V dnešní době se používá množství termínů, které souvisí s analýzou dat. Tyto pojmy se používají poměrně dost intuitivně, často se výrazně překrývají a podléhají různým trendům. Proto bych se v tomto článku rád věnoval jejich vymezení. Tento text jsem zpracovával v rámci rešerše pro inovaci předmětu Úvod do data miningu na Vysoké škole ekonomické. Konkrétně se budu zabývat pojmy datová analýza, datová analytika, data science, strojové učení, data mining a umělá inteligence.


Začněme blízkými pojmy datová analýza a datová analytika. Vyjdeme-li z přesného překladu termínů a budeme předpokládat, že pro datovou analýzu je ekvivalentem anglický termín data analysis a pro datovou analytiku je ekvivalentem termín data analytics. Podle knihy Data Analytics: Models and Algorithms for Intelligent Data Analysis [1] je datová analytika definována jako aplikace počítačových systémů na analyzování velkých datových sad pro podporu rozhodování. Jedná se o interdisciplinární obor, který zahrnuje statistiku, rozpoznávání vzorů, strojové učení, operační výzkum a další. Rozsáhlá kniha Business Analytics: Data Analysis & Decision Making [2] vymezuje (business) analytiku jako souhrn kvantitativních metod, mezi které patří datová analýza, optimalizace, simulace, predikce a další. Autor zmiňuje, že se nejedná o žádné nové přístupy, nové ovšem je, že se využívá velkých objemů dat (big data). Datová analýza je podle tohoto zdroje [3] skupina statistických metod, které umožňují zpracovat velké objemy dat a identifikovat zajímavé aspekty struktury těchto dat.


Nicméně i někteří autoři monografií nemají zcela jasno, jak s těmito termíny nakládat. Například v knize Python Data Analytics: Data Analysis and Science using pandas, matplotlib and the Python Programming Language [4] jsou už v názvu použity oba termíny, v textu potom „data analytics“ v podstatě není vysvětlen a vždy se zde píše o „data analysis“.


Datovou analytiku můžeme rozdělit do několika vývojových stupňů ([5] a [6]) podle sofistikovanosti používaných metod a možnostech jejich využití, a to na deskriptivní analytiku, diagnostickou analytiku, prediktivní analytiku a preskriptivní analytiku. Deskriptivní analytika odpovídá na otázku „Co se stalo?“. Sumarizuje historická data a typicky je prezentuje ve formě dashboardu. Nicméně i v rámci deskriptivní analytiky je možné využít sofistikované metody, například pro automatické zpracování dokumentů, které se zpracovává s využitím metod strojového učení. Diagnostická analytika si klade otázku „Proč se to stalo.“, jde více do hloubky oproti deskriptivní analytice a snaží se v datech nalézt vztahy, které vysvětlují určitý stav věcí. Prediktivní analytika odpovídá na otázku „Co se nejspíše stane?“ Tato analýza predikuje na základě historických dat budoucnost. Využívají se zde statistické metody a metody strojového učení. Preskriptivní analytika je vrchol tohoto řetězce, která zahrnuje všechny výše zmíněné analytiky. Snaží se odpovědět na otázky „Co se stane, kdy se to stane a proč se to stane?“ Slouží pro podporu strategického rozhodování ve firmě a využívá těch nejpokročilejších metod, včetně umělé inteligence.


Jedna z prvních definic datové analýzy pochází z roku 1961, kdy ji statistik John Tukey [7] definoval jako proceduru pro analyzování dat, techniky pro interpretování výsledků těchto procedur, možností plánování sběru dat pro to, abychom mohli analýzy dělat snáze a přesněji. Pro vlastní analýzu se používá (matematická) statistika. Poněkud údernější definice pochází od autorů Marshalla a Rossmana [8], kteří definují datovou analýzu jako „proces, který přivádí řád, strukturu a význam mase nashromážděných dat.“ Wikipedie potom u pojmu Analytics uvádí [9], že se jedná a proces inspekce, čištění, transformací a modelování dat, jehož cílem je nalezení užitečné informace, přinést závěry a podporovat rozhodování.

Rozdíl mezi pojmy datová analýza a datová analytika je potom na Wikipedii [9] vysvětlen tak, že analýza se zaměřuje na to, co se událo v minulosti, zatímco analytika se zaměřuje na to, co se stane v budoucnosti. Toto tvrzení je ovšem podpořeno pouze jedním zdrojem, který je navíc v době psaní tohoto textu nedostupný. Dále se zde píše, že analytika se tolik nezabývá jednotlivými analýzami, ale jedná se spíše o celou metodiku a že užití termínu analytika je více „businessové“. Je třeba poznamenat, že nejasnosti ohledně termínů panují i na Wikipedii, protože se zde nachází upozornění „tato část může být zmatečná a nejasná pro čtenáře“. Tutorka kurzu datové analýzy z Univerzity of Cape Town [10] vysvětluje rozdíl mezi pojmy tak, že datová analýza je součástí datové analytiky. Datovou analýzu vysvětluje jako proces kompletace a analyzování dat pro podporu rozhodování. Datová analytika navíc zahrnuje nástroje a techniky, které tento cíl umožní.


Je tedy zřejmé, že přesné, a hlavně obecně používané vymezené pojmů neexistuje a tyto pojmy jsou používány spíše intuitivně.


V dnešní době však zažívá největší boom pojem data science. Pro srovnání používání jednotlivých pojmů, tedy data analytics, data analysis a data science přikládám graf z Google trends, který ukazuje celosvětovou oblíbenost tří výše zmiňovaných pojmů za posledních 5 let. Z tohoto grafu vyplývá, že zhruba v polovině roku 2017 začal být termín data science používanější než zbývající dva pojmy.

Obrázek 1 - porovnání vyhledávání termínů data analysis, data science a data analytics

Data science, česky datová věda, je pojem, jehož použití je sice možné vystopovat až do roku 1974 [11], rozšíření jeho používání však nastalo až po roce 2000, kdy začaly vznikat vědecké časopisy, mající pojem v názvu (například Data Science Journal, The Journal of Data Science). Přesné vymezení pojmu je opět náročné – jednotná definice neexistuje, nicméně různé zdroje se shodují na tom, že se jedná o interdisciplinární obor, využívající celou řadu metod, jako je statistika, strojové učení, datová analýza k analyzování a porozumění strukturovaným i nestrukturovaným datům [12, 13, 14].


Srovnáme-li výše uvedené vymezení datové analytiky a data science, můžeme konstatovat, že rozdíly jsou minimální. Nicméně pokud se podíváme na více „businessové zdroje“, blogy různých firem či analytiků z praxe, tak zde je odlišení poněkud markantnější (např. [15, 16, 17]). Data science podle těchto zdrojů zahrnuje více technických dovedností, zatímco datový analytik se soustředí spíše na možnosti vizualizace a prezentace výsledků. Další zdroje [18, 19] potom uvádějí, že datová analytika je podmnožinou data science.


Termín má mnoho kritických hlasů, například známý statistik a autor Nate Silver [20] uvádí, že se nejedná o nic jiného než nový, „sexy“ termín pro statistiku. Každopádně pozice data scientist je v současné době velmi žádaná a často se uvádí, že se v současné době jedná o jedno z nejlépe placených zaměstnání (např. [21]).


Termín data mining, v češtině se používá překlad dobývání znalostí z databází, je oproti data science lépe ukotven. Jedná se o proces získávání vzorů ve velkých datasetech, který zahrnuje metody ze strojového učení, statistiky a databázových systémů. Jeho cílem je extrakce informací z dat a jejich transformace takovým způsobem, aby byly použitelné a srozumitelné pro další využití. [22, 23, 24, 25, 26].

Pokud ovšem porovnáme používání termínu data mining s termíny data science a machine learning (Obr. 2), je vidět jasný a dramatický pád v oblíbenosti používání tohoto pojmu, dalo by se říci právě na úkor data science a machine learningu. Obecně určitě platí, že v průběhu času je zájem o pokročilé metody analýzy dat zájem stále větší.

Obrázek 2 - porovnání vyhledávání termínů data mining, data science a machine learning

Strojové učení (machine learning) je podoblast umělé inteligence, která se zabývá tvorbou algoritmů, které dokážou zpracovávat data a vytvářet modely v datech, aniž by k tomu byly explicitně naprogramovány. [27] Strojové učení se obvykle dělí na kategorie učení s učitelem, učení bez učitele, částečné učení s učitelem a posilující učení. Termín byl poprvé použit už v roce 1959 Arthurem Samuelem [28]. Překryv s pojmem data mining je značný, nicméně pokud rozebereme definice těchto termínů, můžeme dospět k závěru, že data mining používá primárně metody učení bez učitele, protože jeho cílem je nalézt neznámé vzory v datech, což v principu není to, co dělá učení s učitelem. Rozdíl tedy můžeme shrnout tak, že strojové učení se snaží o reprodukci známých znalostí, zatímco data mining se snaží nalézt neznámé znalosti.


Umělá inteligence (artificial intelligence) je definována jako věda studující inteligentní agenty, což je jakákoliv entita, která vnímá prostředí a podniká kroky, které maximalizují svou šanci na úspěšné dosazení stanovených cílů [29, 30]. Je možné rozlišit dvojí pohled na tento pojem. První pohled tento pojem v podstatě ztotožňuje se strojovým učením (především s hlubokými neuronovými sítěmi) [31]. Tento pohled podporují vznikající startupy, které se velmi často umělou inteligencí zaštiťují, i když ve skutečnosti aplikují mnohdy základní metody strojového učení [32]. Tento pohled sdílí rovněž přední český vědec v oblasti umělé inteligence, Tomáš Mikolov: „Umělá inteligence, tak, jak se o ní dnes mluví, tak to jsou vlastně metody strojového učení, protože to je ta oblast, která udělala největší pokrok.“ Dále dodává: „Je rozhodně pravda, že v dnešní době je to už takový ten buzzword a že spousta skupin firem, startupů používá tedy to AI jenom z toho hlediska, aby ty jejich produkty vypadalo cool, protože AI je dneska populární klíčové slovo.“ [33]


Druhý pohled na tento pojem nahlíží z výrazně širší perspektivy a strojové učení je bránou pouze jako jedna z komponent. Tento pohled můžeme vidět ve kvalitních monografiích, které se problematikou zabývají (např. [34], [35]).


V této souvislosti je také třeba zmínit členění umělé inteligence na úzkou umělou inteligenci a silnou umělou inteligenci. Úzká umělá inteligence je stav, ve kterém se dnešní stav věcí nachází. Jedná se o umělou inteligenci, která je schopna provádět jednu konkrétní úlohu, jako například rozpoznávat obličeje, ovládat robota, nebo provádět elektronické obchodování. Silná či obecná umělá inteligence je hypotetický stav umělé inteligence, která by dokázala vykonávat všechny intelektuální činnosti stejně jako člověk. Tématu obecné (super)inteligence se věnuje kniha [36].



Seznam zdrojů:

1. RUNKLER, A. Thomas. Data Analytics: Models and Algorithms for Intelligent Data Analysis. Springer Science & Business Media, 2012. 137 stran. ISBN 9783834825889.

2. ALBRIGHT, S. Christian, WINSTON, L. Wayne. Business Analytics: Data Analysis & Decision Making. Cengage Learning, 2016. 984 stran. ISBN 1337225274.

3. SEDKAOUI, Soraya. Data Analytics and Big Data. John Wiley & Sons, 2018. 220 stran. ISBN 9781786303264.

4. NELLI, Fabio. Python Data Analytics: Data Analysis and Science using pandas, matplotlib and the Python Programming Language. Appres, 2015. 337 stran. ISBN 9781484209585.

5. SLÁNSKÝ, David. Data a Analytika pro 21. století. Professional Publishing, 2018. 592 stran. ISBN 9788088260257.

6. MAYDON, T. The 4 Types of Data Analytics. The Data Analytics Blog. 19. 1. 2017 [cit. 16.6.2020] Dostupné na https://insights.principa.co.za/4-types-of-data-analytics-descriptive-diagnostic-predictive-prescriptive

7. TUKEY, J. The Future of Data Analysis. Annals of Mathematical Statistics. 1961. Dostupné online na https://projecteuclid.org/download/pdf_1/euclid.aoms/1177704711

8. MARSHALL, C., ROSSMAN, B. Designing Qualitative Research. Newbury Park, CA: SagePublications, 1989. 175 stran. ISBN 9780803931572.

9. Wikipedia contributors. Analytics. Wikipedia, The Free Encyclopedia. Získáno v 07:57, 4. června, 2020. Dostupné na https://en.wikipedia.org/w/index.php?title=Analytics&oldid=960683817

10. GetSmarter. What's the difference between data analytics and data analysis? [online video] 8. 7. 2019 [cit. 16.6.2020] YouTube.com. Dostupné na https://www.youtube.com/watch?time_continue=9&v=GxpqewgyhQA&feature=emb_logo

11. LONGBING, Cao. Data Science. ACM Computing Surveys (CSUR). 2017. 50 (3): 1–42. doi:10.1145/3076253.

12. O´NEIL, C., SCHUTT, R. Doing Data Science. O'Reilly Media, Inc. 2013. ISBN 9781449358655.

13. DHAR, V. Data Science and Prediction. Communications of the ACM, December 2013, Vol. 56 No. 12, Pages 64-73. DOI 10.1145/2500499

14. HAYASHI, Ch. What is Data Science? Fundamental Concepts and a Heuristic Example. In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. 1998. pp. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.

15. SARIKUMAR, S. Data Science vs. Data Analytics vs. Machine Learning: Expert Talk. Simplilearn. 29.4.2020 [cit 19.6.2020]. Dostupné na https://www.simplilearn.com/data-science-vs-data-analytics-vs-machine-learning-article

16. Springboard India, Data Science vs Data Analytics — How to decide which one is right for you? Medium. 12.4.2019 [cit. 19.6.2020] Dostupné na https://medium.com/@springboard_ind/data-science-vs-data-analytics-how-to-decide-which-one-is-right-for-you-41e7bdec080e

17. BURNHAM, K. Data Analytics vs. Data Science. Northeastern University blog. 28.4.2019 [cit 19.6.2020] Dostupné na https://www.northeastern.edu/graduate/blog/data-analytics-vs-data-science/

18. SHANKAR, R. Data Science vs Data Analytics. Hackr.io. 9.4.2020 [cit. 19.6.2020] Dostupné na https://hackr.io/blog/data-science-vs-data-analyticshttps://hackr.io/blog/data-science-vs-data-analytics

19. EDITORIAL TEAM. The Difference Between Data Science and Data Analytics. InsideBigData. 3. června 2017. [cit 16.6.2020]. Dostupné na https://insidebigdata.com/2017/06/03/difference-data-science-data-analytics/

20. STATISTICS VIEWS. Nate Silver: What I need from statisticians - Statistics Views. www.statisticsviews.com. [cit. 14 června 2020]. Dostupné na https://www.statisticsviews.com/details/feature/5133141/Nate-Silver-What-I-need-from-statisticians.html

21. Best Jobs in America. Glassdoor. [cit. 3.4.2020]. Dostupné na https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm

22. "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.

23. Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Retrieved 2010-12-09.

24. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Archived from the original on 2009-11-10. Retrieved 2012-08-07.

25. Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.

26. Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Retrieved 17 December 2008.

27. The definition "without being explicitly programmed" is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959, but the phrase is not found verbatim in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. doi:10.1007/978-94-009-0279-4_9.

28. Samuel, Arthur (1959). "Some Studies in Machine Learning Using the Game of Checkers". IBM Journal of Research and Development. 3 (3): 210–229. CiteSeerX 10.1.1.368.2254. doi:10.1147/rd.33.0210.

29. Poole, David; Mackworth, Alan; Goebel, Randy (1998). Computational Intelligence: A Logical Approach. New York: Oxford University Press. ISBN 978-0-19-510270-3.

30. Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, ISBN 0-13-790395-2.

31. OPPERMAN, Artem. Artificial Intelligence vs. Machine Learning vs. Deep Learning. Towards Data Science. 29.10.2019 [cit. 10.7.2020]. Dostupné na https://towardsdatascience.com/artificial-intelligence-vs-machine-learning-vs-deep-learning-2210ba8cc4ac

32. Olson, Palmy. Nearly Half Of All ‘AI Startups’ Are Cashing In On Hype. Forbes. 4.3.2019 [cit. 10.7.2020] Dostupné na https://www.forbes.com/sites/parmyolson/2019/03/04/nearly-half-of-all-ai-startups-are-cashing-in-on-hype/#7f9b44dcd022

33. Startupy často mluví o umělé inteligenci, jen aby byly cool. Do Facebooku mě přetáhl Zuckerberg, říká Tomáš Mikolov v podcastu. CzechCrunch. 6.8.2020 [cit. 7.8.2020]. Dostupné na: https://www.czechcrunch.cz/2020/08/startupy-casto-mluvi-o-umele-inteligenci-jen-aby-byly-cool-do-facebooku-me-pretahl-zuckerberg-rika-tomas-mikolov-v-podcastu/

2 zobrazení
  • Twitter Clean Grey
  • LinkedIn Clean Grey