Kuidas masinõppega leida ja visualiseerida sõnadevahelisi seoseid?
Üheks võimaluseks on kasutada word2vec algoritmi. Tegemist on algoritmiga, mis kasutab muuhulgas tehisnärvivõrke. Ei hakka selle toimimisest siinkohal pikemalt selgitama, kuna viin ennast alles ise sellega kurssi. Üks koht, kust rohkem infot saada on siit.

Mina kasutasin riigiteenuste andmeid (täpsemalt teenuste nimesid ja kirjeldusi). Ning lõin sellest word2vec mudeli. Kui tahad asja ise korrata, siis kogu tegevus on koodis siin. Ühe tulemina visualiseerisin erinevate sõnade klastreid. Mudel aitab tuvastada, millised teenused on üksteisele nö tähenduse poolest sarnased. Millise tähenduse poolest? Selle peab vaatleja välja mõtlema.

Mõned huvitavamad leiud. Millisesse klastrisse kuulub riik ja teenus?













Riigiteenuste kirjelduste ja nimed järgi on riik klastris "kontroll" ja "päring". Teenus klastris "registreerimine" ja "abielu".

Jooniselt paistab, et teenus on klastris "kontroll" ja "kontrollimine". Riik aga seisab klastris "kohustus". Seega tundub, et riik väga positiivsete sõnadega ei seostu. Tegemist on kiire analüüsiga, mistõttu teiste (ja rohkemate) andmete korral võib tulem olla erinev. Kui asja vastu huvi, loe algset analüüsi.