NASK pomaga walczyć z hejtem w sieci

Naukowcy instytutu z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu opublikowali właśnie zbiór szkodliwych i neutralnych treści, które posłużą portalom internetowym do skuteczniejszego moderowania treści. To pierwsza taka baza w Polsce. Zbiór danych, który powstał na podstawie materiałów publikowanych na portalu Wykop.pl, to treści szkodliwe, zablokowane przez moderatorów portalu w latach 2013-2023, oraz treści neutralne. Technologia wykorzystana przez NASK do ich wychwycenia opiera się na uczeniu maszynowym.

- Reklama -

Cenne źródło wiedzy dla twórców rozwiązań AI

Na początek opublikowano próbkę 24 tys. wpisów i komentarzy, pozyskanych z serwisu Wykop.pl (często nazywanym „polskim Redditem”), które przeszły przez ręce profesjonalnych moderatorów. 12 tys. z tych treści zaliczono do szkodliwych, natomiast 12 tys. zostało zaklasyfikowanych jako neutralne.

Docelowo udostępniony będzie pełny zbiór, który liczy ok. 700 tys. wpisów i komentarzy. Istotną zaletą bazy jest głębokie osadzenie w polskim internecie. Tworzone klasyfikatory uczone są na danych z polskiego portalu, a zatem uwzględniają kulturową specyfikę tej społeczności, a przede wszystkim analizują język polski w warstwie tekstowej. Wykop.pl ma własną politykę moderacji; klasyfikuje wpisy m.in. jako treści nawołujące do nienawiści i przemocy czy treści zawierające ataki osobiste. Komentarze zaklasyfikowane jako neutralne zostały pozyskane ze strony głównej serwisu.

– Opublikowana baza jest cennym źródłem wiedzy dla twórców rozwiązań AI, którzy mogą jej użyć do trenowania własnych modeli, ale też unikatowym zbiorem danych dla językoznawców, socjologów, badaczy dyskursu czy idiolektów w internecie. Z efektów naszej pracy może skorzystać każdy, komu zależy na wiarygodnej ocenie dużego zbioru autentycznych treści hejterskich. Pojedynczo, intuicyjnie wyobrażamy sobie, jak takie treści wyglądają, co mogą zawierać. Przewaga automatycznej analizy większego zbioru danych polega na tym, że można zaobserwować zjawiska, dostrzec wzorce, których się wcześniej, w izolowanych przypadkach nie dostrzegało – podkreśla Inez Okulska, Kierownik Zakładu Inżynierii Lingwistycznej i Analizy Tekstu w NASK SCIENCE.

Dokładna anonimizacja danych

Dane w bazie zostały poddane dokładnej anonimizacji – po to, aby uniknąć rozpowszechniania szkodliwych treści. Proces ten obejmował m.in. nazwiska i pseudonimy poszczególnych osób, dane adresowe czy adresy stron internetowych. Na potrzeby badań zachowano jednak dane wrażliwe dotyczące np. postaci fikcyjnych czy historycznych.

Graj i pracuj w dowolnym miejscu – Poznaj wielozadaniowe etui Razer Travel Case Folio

mBank: 6 mln klientów, ponad 300 mld zł aktywów i 1,06 mld zł zysku netto

Samsung i Związek Ochotniczych Straży Pożarnych RP łączą siły na rzecz bezpieczeństwa

Wyświetlacz UltraView Windshield LG w gronie finalistów nagrody PACE Pilot Award 2026

Nebula od Zyxel Networks rozwiązuje problem nadzoru nad siecią firmową

Pralki i suszarki oparte na AI znają Twoje ubrania lepiej niż Ty

Poznaj technologie Samsung, które sprawdzają się podczas letnich spotkań

2004: rok, w którym narodziła się inicjatywa Samsung Art Master

Samsung Neo QLED 2026: QN86H, QN80H, QN74H – duże ekrany, jeszcze więcej przeżyć

Rewolucja w Plusie na Kartę 1 zł to 10 GB + nielimitowane rozmowy, SMS-y i MMSY

Nowe składane smartfony Samsung już w przedsprzedaży w T‑Mobile

Przedsprzedaż najnowszych składanych smartfonów Samsung i premierowych smartwatchy w Plusie

Nowości Samsunga w przedsprzedaży w Orange

mBank: 6 mln klientów, ponad 300 mld zł aktywów i 1,06 mld zł zysku netto

Samsung i Związek Ochotniczych Straży Pożarnych RP łączą siły na rzecz bezpieczeństwa

ING Leasing i Bolt zawarły umowę na kwotę 20 mln euro na sfinansowanie rozwoju car-sharingu w Polsce

Bank Pocztowy udostępnia Autopay użytkownikom iPhone’ów i udoskonala moduł Autostrady

NASK pomaga walczyć z hejtem w sieci

Zobacz również

Samsung i Związek Ochotniczych Straży Pożarnych RP łączą siły na rzecz bezpieczeństwa

Pralki i suszarki oparte na AI znają Twoje ubrania lepiej niż Ty

Od czułych słówek do pustego konta

Najnowsze

Graj i pracuj w dowolnym miejscu – Poznaj wielozadaniowe etui Razer Travel Case Folio

mBank: 6 mln klientów, ponad 300 mld zł aktywów i 1,06 mld zł zysku netto

Samsung i Związek Ochotniczych Straży Pożarnych RP łączą siły na rzecz bezpieczeństwa

Wyświetlacz UltraView Windshield LG w gronie finalistów nagrody PACE Pilot Award 2026

Nebula od Zyxel Networks rozwiązuje problem nadzoru nad siecią firmową

Informacje

Najpopularniejsze kategorie