A felügyelt gépi tanulás kihívásai a szociológiai alkalmazásokban

NÉMETH RENÁTA

Az ipari/üzleti alkalmazásokban már sokszorosan bizonyított felügyelt gépi tanulás szociológiai alkalmazásai sajátos kérdéseket vetnek fel. A sajátosság oka, hogy ezekben az alkalmazásokban komplex fogalmak megtanulása az algoritmus feladata (pl. hogy gyűlöletbeszédet tartalmaz-e egy tweet). A felügyelt tanulás lényege, hogy előre bekódolt (gyűlöletbeszéd/nem gyűlöletbeszéd) szövegek címkézését tanulja meg az algoritmus, jellegzetes szövegmintázatokat keresve. A felmerülő kérdések: hogyan jön létre a címkézés? Hogyan lehet betanított kódolókkal elvégeztetni egy olyan hermeneutikai kihívást, mint a gyűlöletbeszéd felismerése? Segítenek-e ezen a rutinszerűen alkalmazott, részletezett annotálási irányelvek? A cikk arra is kitér, hogyan végzik crowdsourcing platformokon a kódolást a nagy cégek, illetve ismertetem az MI-torzítást is, aminek itt az a lényege, hogy a kódolók maguk viszik be a diszkriminációt az adatokba. E kérdéseket kutatási tapasztalatainkkal illusztrálom.