KSSK — System Wykrywania Dezinformacji Metodami Sztucznej Inteligencji

SWAROG System Wykrywania Dezinformacji Metodami Sztucznej Inteligencji Kierownik prof. PWr, dr hab. inż. Paweł Ksieniewicz Kierownik P. Ksieniewicz 2021-12-02— 2024-04-01 PROJEKT NIEAKTYWNY

Opis projektu

Opracowanie systemu wykrywającego źródła celowej dezinformacji to główny cel projektu SWAROG, realizowanego przez naukowców z Wydziału Elektroniki PWr. Na swoje badania otrzymali grant NCBiR w wysokości ponad 8,6 mln zł.

Dofinansowanie przyznano w ramach Strategicznego Programu Badań Naukowych i Prac Rozwojowych „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne” - Infostrateg I. W sumie granty w łącznej wysokości blisko 55 mln zł dostało dziesięć projektów, a wniosek przygotowany przez naszych naukowców – jako jedyny – zdobył maksymalną liczbę punktów.

W skład konsorcjum, które zrealizuje projekt, oprócz Politechniki Wrocławskiej weszła również Spółka Akcyjna MATIC oraz Uniwersytet Technologiczno-Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy.

Na tropie dezinformacji

Projekt „System Wykrywania dezinformacji metodami sztucznej inteligencji” (SWAROG) dotyczy detekcji źródeł celowej dezinformacji z wykorzystaniem narzędzi, które można zbudować dzięki zastosowaniu metod uczenia maszynowego.

Podzielony został na trzy fazy, a w pierwszej z nich nasi naukowcy sprawdzą możliwość realizacji pomysłu oraz osiągnięcia założonych rezultatów.

– Z dostępnej literatury przedmiotu, do której też trochę przyczyniliśmy się w ostatnich latach badań, wiemy, że realizacja systemu automatycznej detekcji fake news jest jak najbardziej możliwa, ale jej podstawowym ograniczeniem jest trudność w pozyskaniu odpowiednich danych do budowy rzetelnego systemu predykcyjnego – wyjaśnia dr inż. Paweł Ksieniewicz z Katedry Systemów i Sieci Komputerowych na Wydziale Elektroniki, który będzie kierować pracami badawczo-rozwojowymi.

Co ważne, problemem nie jest stworzenie wystarczająco dużego zbioru danych, którym mogliby się posłużyć badacze do zbudowania modeli rozpoznawania, a rzetelne i wiarygodne oznaczenie go etykietami, które dadzą systemowi sztucznej inteligencji możliwość efektywnego rozróżniania faktu od próby dezinformacji.

W związku z tym największym wyzwaniem pierwszej fazy będzie opracowanie mechanizmów zobiektywizowanego oznaczania treści oraz dokonana z ich pomocą akwizycji dużego, rozciągniętego w czasie i wiarygodnego zbioru danych w języku polskim, który stanowić będzie pierwszy dostępny korpus fake news tego typu.

– Równolegle, wykorzystując dostępne dla środowiska naukowego zbiory dla języka angielskiego i – w dużej części – autorskie metody rozpoznawania, podejmiemy się konstrukcji uniwersalnej architektury przetwarzania dokumentów na potrzeby klasyfikacji fake news – dodaje naukowiec.
Fazę pierwszą zakończy implementacja prototypu systemu, działającego dla dokumentów w języku angielskim, który będzie działać jako usługa sieciowa.

Badanie treści angielskich i polskich

Klawiatura komputeraW trakcie kolejnego etapu prac rozbudowana zostanie architektura przetwarzania dokumentów, która pozwoli na rozwinięcie prototypu systemu o zdolność rozpoznawania również treści w języku polskim. Dodatkowo opracowana zostanie kompleksowa metoda przewidywania rozprzestrzeniania się szkodliwych treści, która pozwoli na zbudowanie dodatkowego, społecznościowego kontekstu każdego z analizowanych dokumentów, co wprowadzi dodatkową, niezależną informację o rozpoznawanych obiektach.

– Ostatnia faza projektu, będzie starała się wyjść naprzeciw wyzwaniom, z którymi każdy system wykorzystujący sztuczną inteligencję spotyka się po tym, kiedy trafia na rynek komercyjny – tłumaczy dr inż. Paweł Ksieniewicz. – Musimy mieć na uwadze, że naturą wiedzy jest jej historyczność, która przejawia się w ciągłych, najczęściej płynnych zmianach definicji pojęć, które opisuje. W związku z tym dowolny system rozpoznawania staje się w pewnym sensie przestarzały już w momencie udostępnienia go końcowym użytkownikom – przyznaje.
Oznacza to, że w trakcie użytkowania systemu, jakość podejmowanych przez niego decyzji stopniowo się degeneruje, w skrajnej sytuacji spadając do poziomu klasyfikatora losowego, który w miejsce niemal doskonałej kiedyś decyzji, nie ma nam do zaoferowania już niczego więcej poza ślepym strzałem.

– W dziedzinie rozpoznawania wzorców takie zmiany nazywamy dryfami koncepcji (ang. concept drift). Metodami przeciwdziałania ich negatywnemu wpływowi na jakość modeli rozpoznawania zajmuje się poddziedzina przetwarzania strumieni danych, która w ostatnich latach stanowi jeden z podstawowych tematów badawczych podejmowanych przez Zespół Uczenia Maszyn, Katedry Systemów i Sieci Komputerowych. Wykorzystamy tu swoje doświadczenia, aby w finalnej wersji systemu z jednej strony opracować metodologię jego utrzymania oraz bieżącej ewaluacji, a z drugiej – rozszerzyć go o możliwość adaptacji do zjawiska dryfu koncepcji – podkreśla naukowiec.

Wdrożenie w dwóch modelach

Za wdrożenie projektu, które planowane jest na kwiecień 2025 r., odpowiadać będzie firma MATIC, a rozwiązanie będzie oferowane w dwóch modelach.

Pierwszym będzie – najbardziej dostosowany do współczesnego rynku – model chmurowy. Za pomocą wypracowanego rozwiązania świadczona będzie usługa strumienia danych, w którym wykrywane będą fake newsy, przy czym strumień ten będzie mógł być konfigurowany przez odbiorcę z domyślnych (wbudowanych) strumieni lub też z własnych źródeł – wykorzystując dedykowane mechanizmy podłączenia do źródeł danych dopasowanych dla danego klienta.

Drugi model komercjalizacji to wdrożenia on-site – w dedykowanej infrastrukturze klienta. Taki model będzie oferowany w przypadku odbiorców, których wymagania co do ilości danych, zakresu integracji z wewnętrznymi systemami albo poufności przetwarzania wykluczają rozwiązania chmurowe, czyli przede wszystkim agencji rządowych oraz dużych klientów instytucjonalnych takich jak np. Polska Agencja Prasowa. Przeprowadzona analiza rynku pozwoliła ocenić, że około 80% klientów wybierze wdrożenie w chmurze.

Innowacyjny system, ale dla kogo?

Sprzedaż systemu będzie prowadzona do wydawców – w tym przede wszystkim do mediów społecznościowych oraz redakcji dziennikarskich. Do grona potencjalnych klientów w Polsce należą m.in. TVP, Polskie Radio, Polska Agencja Prasowa, Onet.pl, Polska Press, RMF FM, Agora, Telewizja Polsat czy TVN.

Plan komercjalizacji zakłada też pilotażowe wdrożenie wspólnie z Polską Platformą Bezpieczeństwa Wewnętrznego (ppbw.pl), która dla wybranych tematów (jak np. szczepień, które w tej chwili są bardzo istotnym elementem ogólnospołecznej debaty) będzie realizować misję publiczną – wspierając jednocześnie komercjalizację pełnego produktu.

Realizacja projektu rozpocznie się 1 października 2021 r. Okres trwania projektu wynosi 42 miesiące i obejmuje 36 miesięcy na jego realizację przez wykonawcę oraz łącznie 6 miesięcy przeznaczone dla NCBR na ocenę raportów podsumowujących dwie pierwsze fazy projektu. Każda faza projektu trwać będzie po 12 miesięcy, przeplatając to trzymiesięcznymi fazami oceny.