Učím se sbírat a analyzovat data ve vzdělávání a o tom, jak se učím, píšu učební deník.
Proč data a proč deník?
Můj cíl je proniknout do datové analýzy za 3-4 měsíce, a to převážně pomocí samostudia.
Proč data? Data a jejich zpracování jsou důležitá i pro výzkumy a inovace v oblasti vzdělávání. V mém případě jsou logickým krokem v profesním rozvoji.
Proč samostudium? V lednu jsem dokončila magisterské studium a bylo to moc fajn. Teď ale potřebuju své tempo a svoje témata.
Proč deník? Jsem vzdělaná humanitně, nikoli technicky. Nikdy jsem nestudovala ani statistiku, ani žádný programovací jazyk, pořádně neovládám ani Excel. Deník píšu, protože datová analýza je pro mě výzva a já ji nechci vzdát předčasně.
Odkdy dokdy? Deník začínám psát v srpnu 2024. Novou dovednost si chci osvojit do konce roku 2024. Nejde mi tolik o znalosti jako o přímou využitelnost v kontextu mé práce.
Jak píšu? Píšu pouze v rámci tohoto jednoho příspěvku, několikrát týdně. Pokud sem chodíte opakovaně, bude třeba stránku obnovovat. Starší záznamy najdete níže, novější výše.
Čtěte od konce…
pondělí 16. září 2024
Regresní analýza je statistická metoda, která zkoumá vztah mezi dvěma nebo více proměnnými. Cílem regresní analýzy je předpovědět hodnotu jedné proměnné (závislé) na základě hodnot jiné nebo více jiných proměnných (nezávislých).
Pořád mi nedávalo spát to slovo regresivní. Why the heck?! Tak jsem položila dotaz ChatuGPT a dostala odpověď, která ledasco objasňuje: “Slovo regrese bylo použito kvůli historickému kontextu. Pojem pochází od anglického statistika Francise Galtona, který studoval výšku rodičů a jejich dětí. Zjistil, že potomci velmi vysokých rodičů byli obvykle o něco menší a potomci velmi malých rodičů byli vyšší. Tento jev nazval regresí k průměru (neboli návrat k průměru). Termín se pak rozšířil na popis obecnějšího vztahu mezi proměnnými v rámci regresní analýzy.”
V rámci regresivní analýzy se počítá R-square. Ten ukazuje, jak dobře model vysvětluje vztah mezi daty. Pokud je R-square 0, pak model nesedí. Pokud je 1, pak model naopak sedí zcela. Když je R-square třeba 0,5 v modelu, který dává do souvislosti počasí a míru tržeb v obchodě, pak se ukazuje, že jen 50% tržeb je skutečně závislých na počasí, zbytek ne. Model tedy říká, že tržby jsou ovlivněné i počasím, ale rozhodně nejen jím. Tedy čím vyšší R-square, tím lépe, protože tím přesnější je zamýšlený model. V Excelu je pro regresivní analýzu třeba nainstalovat add-on. Really?
P-value je pak číslo, které nám říká, jak pravděpodobné je, že by se naše data vyskytla náhodou, pokud je naše základní hypotéza (vyjádřená modelem) pravdivá. Pokud bychom tedy vzali jakoukoli švihlou proměnnou, která evidentně nemá žádný vztah k míře tržeb, např. výsledky našich dětí ve škole, P-value by nám tento nevztah mělo ukázat pomocí čísel. Pokud je P-value více než 0.05, pak je potvrzeno, že vybraná proměnná nemá žádný vztah k míře tržeb. Pokud P-value naopak vychází méně než 0.05, pak je pravděpodobné, že mezi touto proměnnou a mírou tržeb vztah je. V modelu je pak třeba držet se proměnných, které nejsou random proměnné bez vztahu k závislé proměnné (dependent variable), což u méně švihlých proměnných nemusí být bez výpočtu zřejmé. Teprve pak (po kontrole přes P-value) je navržený model spolehlivý.
Dokončila jsem kurz Beginner Statistics for Dana Analytics na Udemy za 11 dolarů. Hodnotím jej pěti hvězdičkami z pěti a už teď si připadám výrazně chytřejší než před ním. 😉
Další kroky: dokončit kurz Learning analytics for L&D a v základech pochopit SQL databáze.
středa 11. září 2024
Pokračuji v inferenční statistice, téma tohoto týdne je regresivní analýza. To je statistická metoda, která se používá k nalezení vztahu mezi dvěma či více proměnnými. Cílem je zjistit, jak se závislá proměnná (dependent variable) mění v souvislosti s nezávislými proměnnými (independent variables). Nejčastějším typem regresivní analýzy je přitom lineární regrese, jejíž pomocí lze předvídat (predict) další vývoj. Sice nechápu, proč je tam to slovo regrese, ale ok, třeba mi to docvakne.
Co už je lépe pochopitelné, je rozdíl mezi korelací a kauzalitou. Pokud nějaké proměnné statisticky korelují, nemusí to vůbec znamenat, že spolu souvisejí. Pokud například počet úmrtí po pádu z lodi koreluje s počtem sňatků v Kentucky, je dost pravděpodobné, že jde o náhodu, nikoli o kauzální vztah. Jen si říkám, zda jde při rozlišování korelace a kauzality vždy takto použít selský rozum a spíš myslím, že nejde. Tohle je nejspíš to místo, kvůli kterému je třeba používat nejen data (rybky), ale také teorii (rybářskou síť).
V každém případě, korelaci je třeba umět vypočítat. Existuje na to funkce v Excelu. Pokud jsou hodnoty korelace 1 či -1, pak je to hodně silná korelace, pokud jsou 0.7 či -0.7, pak je stále silná, 0.5 či -0.5 znamená mírnou korelaci, 0.3 či -0.3 je slabší korelace a 0.0 ukazuje nulovou korelaci. Joseph zároveň říká, že u sociálních věd může i korelaci 0.3 – 0.5 být ok, neboť chování lidí se předpovídá poměrně špatně. Ve financích či farmaceutickém průmyslu je naopak třeba držet se velmi silných a silných korelací, neboť zde data mluví jasně. Lepší než konkrétní číslo je však stále confidence interval estimate (odhad intervalu spolehlivosti).
K tématu je ještě jedna praktická lekce a pak budu mít za sebou kurz Beginner Statistics. Ejchuchů (jak byl řekl Jan Werich).
BTW, letošní září je masakr, a tak se učím trochu lajdácky. Ale nevadí, vím, jak to chodí. Pokud s tím člověk úplně nesekne, tak pořád dobrý. Ono to zase naskočí.
čtvrtek 5. září 2024
V informační vědě se rádo říká, že informace je rozdíl, který dělá rozdíl (difference that makes a difference). V pedagogice se dodává, že pokud má informace padnout na úrodnou půdu, musí být půda zoraná. A tak se v minulých dnech nějak stalo, že jsem ready na inferenční statistiku a vracím se k Beginner Statistics. Tématem je odhad (estimates).
Odhady lze dělat pomocí konkrétního čísla (point estimate) či pomocí odhadu intervalu spolehlivosti (confidence interval estimates). Druhá možnost je lepší: “S 95 % jistotou odhaduji, že 5-13 studentů dostane z tohoto testu dvojku”. Jak se toto počítá? Pomocí Gaussovy křivky a směrodatné odchylky. Čím víc jistoty chci mít, tím větší rozpětí čísel musím odhadovat.
Vzorec pro výpočet odhadu je následující: průměr plus, mínus faktor spolehlivosti krát standardní odchylka (standard error). V Excelu pro výpočet žádná jednoduchá funkce neexistuje, výpočet je náročný. Zkouším tedy zadat následující požadavek do Julius AI: “Průměr dosažených známek v tomto testu za poslední dva roky je 2, celkem mám letos v ročníku 180 studentů. Chci znát odhad intervalu spolehlivosti, kolik studentů dostane dvojku, a to s 95 % jistotou.” Julius ukazuje, že používá podobný vzorec, ale místo směrodatné odchylky použije pravděpodobnost pro získání dvojky, jíž určí na 50 % (myslím tedy, že zde vůbec nepočítá se směrodatnou odchylkou). Výsledek odhadu určuje takto: dolní hranice intervalu je 77, horní hranice je 103.
Abych to mohla porovnat s výpočty v Excelu, potřebovala bych vzorek 180 výsledků reálného testu, a to nemám. Tak prozatím budu Juliusovi věřit a příště zkusím jiný příklad.
úterý 3. září 2024
Začátek září je mírně řečeno náročný, tak poslední tři dny ve svém učení volím metodu berrypicking. Drobná informace tu, drobná informace tam a ono se ledasco propojí samo.
Takže jsem koukala na tutoriál k Julius.ai, který mi objasnil roli skriptovacího jazyka Python v tomto programu. Také jsem pochopila, že Julius asi dokáže přeskočit Excely a Orange, ale stejně je třeba znát pojmy z datové analýzy a ideálně i ze statistiky.
Také jsem hledala nějaký framework pro studium datové analýzy, který bych mohla sledovat. Myslím tím nějaký rámec, který by mi řekl, zda něco zásadního při učení nevynechávám. Nic moc jsem nenašla. Díky programům od Czechitas jsem ale pochopila, že jak pro analýzu dat, tak pro Julius bude dobré pochopit základy Pythonu.
Nakonec jsem četla poslední článek z Learning Analytics 101 od Alyssy Wise a Davida Shaffera o tom, proč learning analytics potřebují teorii. Data tu autoři přirovnávají k rybkám a teorii k rybářské síti. Hovoří o tom, že v rámci analýzy je třeba nejen vybrat ty správné proměnné, ale také vědět co s nimi. I když se například ukáže, že úspěch v šachu závisí na rychlosti tahů, z hlediska výuky nováčků je tato souvislost nepoužitelná. Jinými slovy, ne všechny zajímavé souvislosti jsou v rámci learning analytics užitečné, a proto je důležité vědět, v rámci jakých mantinelů se k datům vztahujeme.
sobota 31. srpna 2024
Neil se překonává, vysvětluje základy natural language processing (NLP). Tedy ukazuje, jak se přistupuje k přirozenému jazyku z hlediska datové analýzy.
Když definuje základní termíny, přemýšlím, zda se NLP už vylučuje na katedrách lingvistiky a pokud ne, tak kdy se s tím začne.
Corpus znamená soubor slov, lexikon jsou slova ve specifickém kontextu. Transformation je proces čištění přirozeného jazyka, aby byl využitelný pro datovou analýzu. Tokenization znamená dělení částí textu do menších jednotek.
Stop words jsou slova, která musejí být z analýzy vyloučena (a, proč, když, že…). Normalization je proces redukce slov na kořen slova. Stemming a lematization je proces, jímž se normalizace uskutečňuje.
Proces čištění vypadá třeba takto: corpus-transformation-lematization-sentiment analysis. Neil jej demonstruje v programu Orange Data Mining takto: corpus-preprocess text-sentiment analysis-heat map-word cloud. Výstupem je vizualizace dat pomocí word cloudu, heat mapy či analýzy sentimentu.
Já budu muset vymyslet, jak NLP uskutečnit v nástroji Julius.ai. Každopádně v NLP, jak ji Neil vysvětluje, jsem úplně doma.
pátek 30. srpna 2024
Neil se konečně rozjel. Mluví o tom, že rozhodnutí ve firmách nesmějí být založena pouze na tom, co se ukazuje ve středu Gaussovy křivky. Stejně tak důležité je sledovat směrodatnou odchylku a její zdroje. V průměru se může jevit, že firma z hlediska L&D prosperuje, směrodatná odchylka a rozptyl dat ale mohou ukázat, že prosperuje třeba jen určitá skupina a jiná je v závěsu (tail). Opět opakuje, že čím menší směrodatná odchylka, tím lépe. Vedle toho ukazuje, jak měřit zkosení, skewness [ˈskjunəs] funkcí SKEW [ˈskju] a že pokud to vychází mezi -2 a 2, pak je SKEW cute. To samé říká o kurtosis (fakt se to překládá chvostovitost?), která se v Excelu měří funkcí KURT.
Další dnešní téma jsou krabicové diagramy (boxplots). Ty zobrazují data pomocí čtyř kvadrantů zobrazených ve formě čtverce či obdélníku. Také se využívají pro zobrazení vztahů mezi dvěma skupinami dat. Jeden sloupec jsou například data o formě studia (self-paced, small group coaching, virtual classroom) a druhý sloupec je míra dokončení studia. Z boxplotu je dobře vidět, že small coaching group má nejvyšší míru dokončení studia, ale zároveň je na grafu dobře vidět pár teček hluboko pod čtvercem. U self-paced studia je průměr docela nízko a několik teček je zase nahoře. Graf takto zobrazený umožňuje otázky: Proč některým lidem small group coaching nesedlo? Co dál o této skupině víme? A také: Co je to za skupinu, která si tak dobře počíná v self-paced kurzu? Proč se jim tak daří?
BTW, videa nad 12 minut v self-paced kurzu jsou naprostý overkill, Neile.
čtvrtek 29. srpna 2024
Gaussova křivka je strašně zajímavá, ale potřebuju to nechat uzrát, tak dělám krok stranou. V merku jsem měla kurz “Learning analytics” for L&D Professionals na Udemy a teď přišel jeho čas, stál mě 10 dolarů.
Kurzem provází Nilakantasrinivasan, který si říká Neil. Vysvětluje čtyři stupně datové analýzy v L&D (learning & development) ve firmách, ty vycházejí z Kirkpatrikova modelu hodnocení. Kirkpatricka znám, používá se celkem běžně, tak se mám čeho chytit. Taky je hned zjevné, že na všechny čtyři stupně se bude uplatňovat deskriptivní statistika, tak to se mám taky čeho chytit.
Neil pracuje v Excelu, ale nepoužívá žádné funkce, vystačí si s kontingenční tabulkou (pivot table). Její pomocí zobrazuje vztahy mezi daty jako: věk vůči míře dokončení; oddělení firmy vůči míře dokončení; role ve firmě vůči míře dokončení; typ programu vůči míře dokončení. Kontingenční tabulku si připraví jak potřebuje, data seskupí (grouping) a následně zobrazí pomocí histogramu (neříká se mu česky sloupcový graf?).
Oproti kurzu statistiky se jeho postupy jeví zatím dost primitivní, ale pravda je, že z takto k sobě vztažených dat už něco na první pohled vyplývá. O to Neilovi jde. Připomíná, že datová analýza je vždy tak trochu storytelling. Datový analytik musí vědět, jaká data hledá, na jaké otázky odpovídá a jak má data zobrazit, aby byla odpověď zřejmá.
Na indickou angličtinu si lze snadno zvyknout, ale trochu mě štvou delší videa, ideální je 6 min, 10 min už je hodně.
Otevřela jsem komentáře dole pod tímto příspěvkem. Jsem zvědavá, co z toho bude.
středa 28. srpna 2024
Dnes inferenčí statistika z mobilu cestou na Letnou.
Tématem byla centrální limitní věta (central limit theorem). Říká asi tohle: když vyberete ve škole ze všech tříd libovolných 20 žáků, koukněte na jejich známky a ty zobrazíte pomocí histogramu, pak se vám rozložení známek zobrazí jako souměrná Gaussova (zvonová) křivka (angl. the bell curve). Nejvíc jich má průměrné známky, nejlepší a nejhorší známky jsou rovnoměrně na okrajích a je jich o dost míň.
Hned mě napadne, proč teda nemá mnohem víc žáků trojky… Muž říká, že to není úplně špatně položená otázka.
Guassova křivka je pro inferenčí statistiku důležitá, je považovaná za normální způsob rozdělení (normal distribution). Je přirozená celé řadě pozorovatelných fenoménů.
Právě díky centrální limitní větě, s níž the bell curve souvisí, stačí i relativně malé vzorky dat, aby výsledek reprezentoval výsledky uplatnitelné na celý dataset. Obojí totiž bude normally distributed.
Tak to jsem se naučila dnes cestou na Letní Letnou. Představení cirkusu Les Rois Vagabonds bylo moc pěkné.
úterý 27. srpna 2024
Přemýšlím, zda by bylo výhodné učit se statistiku i v češtině, nebo jen v angličtině. Myslím, že to budu kombinovat.
I dnes zůstávám u deskriptivní statistiky. Vrátila jsem se k lekci o standard deviation (směrodatná odchylka), protože vím, že se hodně používá právě v akademických pracích. Chápu, že čím vyšší směrodatná odchylka, tím hůř, protože výsledky jsou příliš rozptýlené, nekorelují. Nízká směrodatná odchylka naopak umožňuje lépe předvídat, dává jasnější informace. Směrodatná odchylka je tedy důležitá pro interpretaci dat, ale zároveň číslo směrodatné odchylky samo o sobě příliš informací neposkytuje. Důležitý je kontext.
Směrodatná odchylka se mimo jiné používá pro porovnávání více data setů. Pak se používá vzorec pro tzv. variační koeficient. Ten se počítá tak, že se vezme směrodatná odchylka, ta se vydělí průměrem a to celé se vynásobí 100. Jestli to chápu správně, variační koeficienty se porovnávají lépe než směrodatné odchylky. Skvělé vysvětlení poskytuje Datová akademie, rovnou jsem se přihlásila k jejich newsletteru.
Mimochodem, asi začínám chápat Excel. Funguje jako soukromý matematik, který je vždy při ruce i pro aplikaci pokročilých matematických vzorců.
pondělí 26. srpna 2024
Zaplatila jsem si Julius.ai, nástroj generativní umělé inteligence pro datovou analýzu.
Nedává to úplně smysl, neboť nerozumím pokročilé statistice, neumím Python, ani se mi nechce učit s dalším novým nástrojem. Když platbu obnovím 3 krát, vyjde mě to asi na tisícovku. Kahneman říká, že někdy je intuitivní rozhodování užitečné, jindy moc ne. Mně se vyplácí při učení nad věcmi moc nepřemýšlet, ale spíš je dělat.
Pokračuju v kurzu statistiky pro begginery. Dnes se soustředím na deskriptivní statistiku. Učím se, jak se zobrazují data pomocí histogramu, jakou roli tu hraje rozptyl (variance), směrodatná odchylka (standard deviation) či varianční koeficient (coefficient of variation). Učím se v Excelu funkce SKEW a STDEV.
Zdá se, že věnovat kurzům 30 min brzy ráno je dobrý nápad.
neděle 25. srpna 2024
Hledám kurzy základů statistiky. Na Udemy narazím na tříhodinový kurz Beginner Statistics for Data Analytics. Přesvědčí mě slib “in an easy and fun way”, investuji prvních 11 dolarů.
Líbí se mi jak prostředí Udemy, tak bite-sized přístup instruktora. Trpělivě na videích vysvětluje rozdíl mezi deskriptivní a inferenční statistikou, mezi populací a vzorkem, mezi kategorickými a numerickými daty a mezi různými druhy grafů. Žádná omáčka, jen pojem, příklad, opak pojmu, jedeme dál. Po první půl hodině otvírám Excel a využívám funkce AVERAGE, MEDIAN a MODE.
Odpoledne se vracím k textům z Learning Analytics 101. Nechci ztratit ten širší kontext. Čtu text Data-Informed Decision Making od Alyssy Wise. Píše, že data o učení pocházejí většinou z LMS systémů, studentských diskuzních fór, ale také z virtuálních tabulí a kvízů, když je učitel používá v běžné třídě. Myslím, že tím posledním myslí třeba Menti, Slido, Kahoot, ale také různé klikačky na interaktivní tabuli.
Učitel, který nějak zapojuje technologie, vlastně neustále pomáhá generovat nějaká data o učení žáků a studentů. K těm je třeba přistupovat jako k jisté formě důkazů o učení. Když se je naučí sledovat, může podle Wise dělat lépe informovaná rozhodnutí jak učitel, tak sám studující.
Metody využívané v learning analytics jsou například learner success prediction (s cílem rozdělit studující do určitých kategorií, vyhmatat problémy apod.) či natural language analysis (analýza diskuzních fór, odevzdaných slohových prací apod.).
U večeře si nechám od manžela (matematika) některé věci dovysvětlit. Máme nové společné téma.
sobota 24. srpna 2024
Pokračuju v Learning Analytics 101, čtu článek od George Siemense a Ryana Bakera, kteří vysvětlují rozdíl mezi dvěma odlišnými přístupy, learning analytics and knowledge (LAK) a educational data mining (EDM).
Oba přístupy se věnují datům ve vzdělávání, druhý přístup je však mnohem více orientovaný na předvídání dlouhodobějších trendů, nikoli intervence vůči studujícím teď a tady.
Odlišný je už vůbec samotný přístup ke sběru dat, LAK se nechává vést zamýšlenými intervencemi a teprve na základě toho designuje sběr dat, EDM využívá existující zdroje velkých dat a z nich predikuje trendy ve vzdělávání. Vlastně se asi budu muset do jisté míry učit obojí.
Začíná mi být jasné, že základům statistiky se nevyhnu a tuším, že bych s tím neměla otálet.
pátek 23. srpna 2024
Děti odjely na prázdniny, já piju pátý kafe a dýchám. Mám před sebou týden, který často nasměruje moje kroky na další půl rok.
Dělala jsem si už předem nějaký research, mluvila o tom se známými a rozhodla se: datová analýza je ideální krok.
Hledám zdroje, od kterých bych se mohla odrazit. Začínám otevřeným zdrojem Learning Analytics 101. Po prvním videu od Alyssy Wise je mi jasné, že tohle je perfektní začátek. Dodává širší kontext.
Learning analytics je poměrně nový přístup k datům o učení. Jeho síla spočívá v okamžitém uplatnění výstupů. Tedy jakmile se data posbírají a vyhodnotí, hned se zase vracejí do žádaných intervencí.
Learning analytics přitom nepotřebuje velká data, ani nevyžaduje pokročilé statistické metody. Jde na ruku pedagogům: stojí na principech, které znají. A také si žádá holistické přemýšlení o vzdělávání.
To se mi líbí.
Jsem Klára Pirklová, vystudovaná filosofka a posledních 5 let learning designerka.
Pracuju pro Národní pedagogický institut ČR, kde s kolegyněmi usilujeme o designový přístup ke vzdělávání učitelů a ředitelů škol v Česku. Na Filosofické fakultě Masarykovy univerzity vyučuji předmět Learning design: teorie a praxe.
Všichni u nás doma, manžel a teď už i čtyři děti, jsou nadšeni mnohem více do STEM (science-technology-engineering-mathematics) nežli humanitních oborů. Datová analýza je pro mě tedy profesní výzva, ale také rodinný love language.