Andmeteaduse projektid
Siia rubriiki on kokku kogutud mõned projektid, milles olen kaasa löönud.
Kõik tulemid on sündinud koostöös, mistõttu ei kuulu kogu au tulemuste eest ainult minule.
Kõnetuvastuse mudelite loomine
Feelingstreamis olen aidanud luua kõnetuvastuse mudeleid Skandinaavia ja eesti keeles täiesti algusest:- andmete kogumine ja ettevalmistamine transkribeerimiseks,
- manuaalse transkribeerimise juhtimine ja haldamine (sh transkribeerijate koolitus),
- andmete ettevalmistamine mudeli treenimiseks,
- mudeli treenimine, optimeerimine,
- mudeli testimine,
- mudeli tutvustamine kliendile.
Lisaks selle olen aidanud kohandada kõnetuvastuse mudeleid konkreetsetele klientidele.
Avalikult on kättesaadavad mõned minu hobikorras loodud mudelid.
Tekstidest automaatselt teemade tuvastamine
Kliendivestluste analüüs jõuab üsna kiiresti olukorrani, kus on vaja kiiresti tuvastada tekstist enamlevinud teemad, fraasid.
Käsitsi seda teha ei taha (kellel oleks aega tuhendeid tekste lugeda ja teemasid välja noppida). Selleks olen eksperimenteerinud erinevate lahendustega, alates klassikalisest LDA-st kuni suurete keelemudeliteni (LLM-d).
Sellel teemal olen kirjutanud oma viimase magistritöö.
Avaliku näitena on kättesaadav Riigikogu stenogrammide analüüs, kus olen automaatselt tuvastanud enamelvinud teemad.
ISO 27001 sertifitseerimiseks ette valmistumine
Andmeteadus on lihtne, võtad internetist andmed, githubist koodi ja läheb mudeli küpsetamiseks.
Tegelikult on mudelite loomine üks osa. Hoopis teine asi on ehitada üles andmeteaduse organisatsiooni nii, et oleks tagatud kõikvõimalik infoturbega seonduv.
ISO 27001 sertifitseerimine aitas Feelingstreamil näidata, et tegemist on tõsiseltvõetava ettevõttega, kus toimivad kokkulepitud protsessid (andmed on hoitud ja kaitstud).
ISO 27001 sertfitseerimisel aitasin (koostöös paljude partneritega):- tekitada infortuberjuhtimise raamistik,
- seda juurutada,
- kirjeldada ja juurutada olulisemad infoturbega seotud protsessid,
- teha riskianalüüs ja riskide haldamist,
- jpm.