slideslideslideslide

Novinky

Samuel Rosa: Svet je plný dát. Ak chcete s nimi vedieť pracovať, študujte aplikovanú matematiku

8.6.2021

samuel rosaMatematik Samuel Rosa učí na Univerzity Komenského štatistiku a aplikovanú matematiku. Vo svojom výskume sa venuje teoretickej štatistike, najmä štatistike navrhovania experimentov. V roku 2018 získal Cenu akademika Schwarza od Slovenskej matematickej spoločnosti a v roku 2020 bol zaradený do rebríčka Forbes 30 pod 30 v kategórii Veda a vzdelávanie.

Najlepšie bunky na matematiku má ten, koho baví

Kto má najlepšie bunky a predpoklady na matematiku?

Hlavne ten, koho matematika baví – to je najlepší predpoklad pre to, aby mu alebo jej šla. Aj v matematike je celkom výstižné tvrdenie, že drvivá väčšina úspechu pozostáva z cvičenia a len kúsok je daný talentom. Čiže aj ak niekomu matematika zatiaľ až tak nejde, ale objavil krásu a  potešenie, čo sa v nej skrývajú, tak je to dobrý predpoklad na to, aby mu skôr či neskôr išla dobre. Ak by som sa na to mal pozrieť menej idealisticky, tak zrejme najdôležitejšia vlastnosť je schopnosť abstraktne myslieť – lebo celá matematika je vlastne o tom, kam až sa dá zmysluplne v abstrakcii zájsť.

To, že matematika nie je praktická veda, neznamená, že nie je prakticky použiteľná! Veľmi výrazne ju používajú prírodné vedy, napríklad taká fyzika je s matematikou úplne prepletená. Ale použiteľnosť matematiky, špeciálne aplikovanej matematiky a štatistiky, sme videli napríklad aj v terajšej pandémii, kde sa na nás zo všetkých strán valili rôzne matematické modely, výpočty pravdepodobností pri testovaní, alebo aj taký 7-dňový kĺzavý medián.

Takže matematika je teoretická, nie praktická veda…

Keďže je celá postavená na abstrakcii, tak sa asi nemôžeme tváriť, že by matematika bola praktická veda. Takže za mňa je to jednoznačne jedna z tých najviac teoretických. Takým praktickým overením je to, že matematik si na svoj výskum vystačí s perom a papierom (a tí menej teoretickí niekedy zájdu až tak ďaleko, že použijú aj počítač), na rozdiel od väčšiny ostatných vied. Pozor, to však neznamená, že matematika nie je prakticky použiteľná! Veľmi výrazne ju používajú prírodné vedy, napríklad taká fyzika je s matematikou úplne prepletená. Ale použiteľnosť matematiky, špeciálne aplikovanej matematiky a štatistiky, sme videli napríklad aj v terajšej pandémii, kde sa na nás zo všetkých strán valili rôzne matematické modely, výpočty pravdepodobností pri testovaní, alebo aj taký 7-dňový kĺzavý medián.

Fakty sú tvrdohlavé, štatistiky poddajné

Na Univerzite Komenského vyučujete štatistiku. George Bernard Shaw poznal tri druhy klamstva: malé, veľké a štatistiku. Koľko klamstiev poznáte vy?

Musím uznať, že tento výrok je celkom výstižný, takže ako štatistik poznám klamstiev dosť veľa. Súvisí to s iným známym výrokom: fakty sú tvrdohlavé potvory, ale štatistiky, tie sú poddajné. Ale nie je to tak, že by štatistika bola jedno veľké klamstvo, len, žiaľ, pomocou nesprávneho používania štatistiky vieme celkom dobre skrývať pravdu, alebo rovno klamať. Na druhej strane, pre matematikov a štatistikov je to v istom zmysle dobrá správa, lebo na to, aby sme sa takýmito podvodnými postupmi nenechali oklamať, nám slúži práve znalosť matematiky a štatistiky. Takže aj našim študentom zdôrazňujeme, kedy rôzne štatistické postupy nie je správne použiť a varujeme ich pred možnosťami „klamania“ s dátami.

Nedá sa to povedať jednou vetou, ale čo robí dobrú štatistiku naozaj dobrou a kvalitnou?

V prvom rade to, keď nie je vyrobená ako „najväčšie klamstvo“, ale keď je spravená poctivo. To v sebe zahŕňa, že musí byť dôkladne overené, že je použitá čo najvhodnejšia metóda na daný problém a že všetky predpoklady tej-ktorej metódy sú ozaj splnené. Totiž „spraviť štatistiku“, to nie je len vypočítať jedno číslo ako napríklad priemer, ale sú to zvyčajne zložitejšie metódy, modely, testy, ktoré sa snažia z dát vytiahnuť čo najviac informácie a spraviť čo najlepšie závery. A ak sa aj najlepšia metóda použije v nesprávnej situácii alebo nesprávnym spôsobom, tak sa dostávame späť k malým a veľkým klamstvám.

Štatistika navrhovania experimentov: Ako získať najviac informácií

Venujete sa aj štatistike navrhovania experimentov. V čom spočíva táto vaša práca? Ako sa dajú experimenty štatisticky vyhodnocovať tak, aby boli hodnoverné?

Štatistika navrhovania experimentov sa skôr ako vyhodnocovaniu venuje tomu, ako spraviť experiment tak, aby sa potom pri jeho štatistickom spracovaní dalo z neho získať čo najviac informácie. Vezmime si napríklad klinickú štúdiu, kde overujú, ktorý z troch liekov je najúčinnejší na liečbu nejakého ochorenia. Keby tú štúdiu spravili tak, že jednému človeku dajú prvý liek, jednému druhý a 98 ľuďom tretí, tak to asi nie je úplne najlepšie. Tiež by napríklad nebolo dobré, ak by jeden liek dávali iba mladým ľuďom a druhý iba starým. Štatistik, čo sa venuje navrhovaniu experimentov, sa potom v tomto hypotetickom príklade snaží zodpovedať otázku, ktorým ľuďom dať ktorý liek, aby sme po spravení štúdie vedeli povedať čo najviac o tom, ktorý z liekov je najlepší.

Takéto problémy je možné formulovať ako isté matematické optimalizačné úlohy. Z teoretického pohľadu sa potom skúma, za akých okolností majú tieto úlohy aké riešenia – teda za akých okolností ako vyzerajú najlepšie návrhy experimentov. Mne ako matematikovi je sympatickejšia tá abstraktnejšia časť, čiže sa nevenujem priamo spolupráci s výskumníkmi pri navrhovaní experimentov, ale riešeniu príslušných všeobecných matematických úloh.

Benfordov zákon: Prečo veľa čísel začína na jednotku?

Nedávno ste prednášali o Benfordovom zákone. O čo v ňom ide? Naozaj funguje v praxi?

Venuje sa zdanlivo jednoduchej otázke: ak si vezmeme nejaké čísla z reálneho sveta, aká časť z nich bude začínať na jednotku, aká na dvojku atď.? Napríklad si vezmime veľkosti populácií jednotlivých krajín. Intuícia napovedá, že by sme očakávali podobné počty krajín s populáciami začínajúcich na 1, 2, …, teda asi 11% pre každú z cifier. V praxi sa však ukazuje, že pre veľmi veľa dátových sád to neplatí – namiesto toho najviac čísel v nich zvykne začínať na jednotku (asi 30%), menej na dvojku a tak to postupne klesá až k deviatke, na ktorú zvykne začínať iba približne 5% dát. A toto rozdelenie prvých čísel v reálnych sadách dát popisuje práve Benfordov zákon. Má zaujímavé matematicko-štatistické zdôvodnenie, ktoré vychádza z vlastností reálnych dát, aj z vlastností našej desiatkovej sústavy. A naozaj v praxi funguje – ak by sme sa pozreli na spomínané veľkosti populácií alebo na mnohé iné dáta, uvideli by sme približne 30% z nich začínajúcich na jednotku, menej na dvojku atď., v súlade s Benfordovým zákonom.

Venujete sa aplikovanej matematike. Odporúčate študovať ju aj iným?

Určite áno. Ak by som ju neodporúčal študovať, asi by som sa jej nevenoval a ani ju neučil. Hlavne ju odporúčam študentom, ktorí majú pomerne pozitívny vzťah k matematike, ale nechcú sa vzdialiť do úplnej abstrakcie teoretickej matematiky. Aj teoreticky ladený študent si však v aplikovanej matematike vie nájsť zaujímavé a dostatočne abstraktné problémy. Navyše, svojím bližším vzťahom k praxi (čo vidíme už z názvu) je vhodná pre tých, ktorí by sa chceli venovať aj matematike, ale chcú sa dozvedieť aj poznatky a metódy priamo aplikovateľné v praxi. Napríklad u nás na matfyze sú viaceré odbory aplikovanej matematiky (ekonomická a finančná, štatistika a poistná, manažérska matematika), na ktorých sa okrem matematiky učia aj užitočné praktické poznatky z tej-ktorej oblasti. Nakoniec, hovorí sa, že dnes je svet plný dát, a tieto dáta a rôzne algoritmy čoraz viac ovplyvňujú náš život. Jedným zo spôsobov, ako sa naučiť s dátami pracovať, je práve štúdium aplikovanej matematiky.

foto: archív S. Rosu, Unsplash