czwartek, 16 maja, 2024

Nasze serwisy:

Więcej

    NASK pomaga walczyć z hejtem w sieci

    Zobacz również

    Naukowcy instytutu z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu opublikowali właśnie zbiór szkodliwych i neutralnych treści, które posłużą portalom internetowym do skuteczniejszego moderowania treści. To pierwsza taka baza w Polsce. Zbiór danych, który powstał na podstawie materiałów publikowanych na portalu Wykop.pl, to treści szkodliwe, zablokowane przez moderatorów portalu w latach 2013-2023, oraz treści neutralne. Technologia wykorzystana przez NASK do ich wychwycenia opiera się na uczeniu maszynowym.

    - Reklama -

    Cenne źródło wiedzy dla twórców rozwiązań AI

    Na początek opublikowano próbkę 24 tys. wpisów i komentarzy, pozyskanych z serwisu Wykop.pl (często nazywanym „polskim Redditem”), które przeszły przez ręce profesjonalnych moderatorów. 12 tys. z tych treści zaliczono do szkodliwych, natomiast 12 tys. zostało zaklasyfikowanych jako neutralne.

    Docelowo udostępniony będzie pełny zbiór, który liczy ok. 700 tys. wpisów i komentarzy. Istotną zaletą bazy jest głębokie osadzenie w polskim internecie. Tworzone klasyfikatory uczone są na danych z polskiego portalu, a zatem uwzględniają kulturową specyfikę tej społeczności, a przede wszystkim analizują język polski w warstwie tekstowej. Wykop.pl ma własną politykę moderacji; klasyfikuje wpisy m.in. jako treści nawołujące do nienawiści i przemocy czy treści zawierające ataki osobiste. Komentarze zaklasyfikowane jako neutralne zostały pozyskane ze strony głównej serwisu.

    – Opublikowana baza jest cennym źródłem wiedzy dla twórców rozwiązań AI, którzy mogą jej użyć do trenowania własnych modeli, ale też unikatowym zbiorem danych dla językoznawców, socjologów, badaczy dyskursu czy idiolektów w internecie. Z efektów naszej pracy może skorzystać każdy, komu zależy na wiarygodnej ocenie dużego zbioru autentycznych treści hejterskich. Pojedynczo, intuicyjnie wyobrażamy sobie, jak takie treści wyglądają, co mogą zawierać. Przewaga automatycznej analizy większego zbioru danych polega na tym, że można zaobserwować zjawiska, dostrzec wzorce, których się wcześniej, w izolowanych przypadkach nie dostrzegało – podkreśla Inez Okulska, Kierownik Zakładu Inżynierii Lingwistycznej i Analizy Tekstu w NASK SCIENCE.

    Dokładna anonimizacja danych

    Dane w bazie zostały poddane dokładnej anonimizacji – po to, aby uniknąć rozpowszechniania szkodliwych treści. Proces ten obejmował m.in. nazwiska i pseudonimy poszczególnych osób, dane adresowe czy adresy stron internetowych. Na potrzeby badań zachowano jednak dane wrażliwe dotyczące np. postaci fikcyjnych czy historycznych.

    ŹródłoNASK
    guest
    0 komentarzy
    Inline Feedbacks
    View all comments
    - Reklama -

    Najnowsze

    Nowa oferta VeloBanku: 60 zł na start i do 540 zł zwrotu za zakupy

    Czy wydając pieniądze, można jednocześnie zyskiwać? W Świecie Bardziej Velo wszystko jest możliwe, co udowadnia nowa gorąca oferta. Spełniając...