projekty_apakt_kv

Projekty_Apakt_KV

projekty_apakt_logo

Projekty_Apakt_logo

Automatic search, analysis and classification of highly harmful web content (APAKT)

Automatyczne wyszukiwanie, analiza i klasyfikacja treści wysoce szkodliwych (APAKT) 

shoe-g441d43d15_1280

projekty_apakt_ikona

Projekty_Apakt_ikona

Prof. dr hab. inż. Andrzej Pacut

The everyday job of the moderators at Dyżurnet.pl, a unit operating within the structure of NASK PIB, is to verify illegal content reported by users or algorithms, including materials containing child sexual abuse (CSAM). This task is both crucial and challenging. On the one hand, the goal is to maximize effectiveness and provide broad protection to potential recipients from such content. On the other hand, it is essential to protect the moderators, who are exposed to these materials for many hours each day.
In the APAKT project, together with the Warsaw University of Technology, we are developing a system to assist moderators through automatic detection and preliminary classification of suspicious materials. The system will also propose the order of reports to prioritize those requiring immediate intervention (as they may be potentially more harmful).
Potential clients for the APAKT program may include internet service providers, large portals, the police, forensic experts, and foreign institutions involved in removing pedophilic content from the internet. APAKT is capable of detecting pedophilia in videos, images, and texts. 
Currently, it only supports the Polish language, but the models used, such as RoBERTa and StyloMetrix vectors, are available in English and Ukrainian as well.
The project is funded by a grant awarded by the National Centre for Research and Development.

Zadaniem moderatorów sieci w Dyżurnet.pl, jednostce działającej w strukturze NASK PIB, jest weryfikacja nielegalnych treści zgłoszonych przez użytkowników lub algorytmy, w tym między innymi materiałów zawierających seksualne wykorzystanie dzieci (ang. CSAM, child sexual abuse material). Chyba nie trzeba nikogo przekonywać, jak ważne i jednocześnie trudne to zadanie. Z jednej strony chodzi o to, by zwielokrotnić efektywność i jak najszerzej ochronić potencjalnych odbiorców przed tego typu treściami. Z drugiej &#8211; ochronić również samych moderatorów narażonych przez wiele godzin dziennie na kontakt z tymi materiałami.
W projekcie APAKT razem z Politechniką Warszawską opracowujemy system, który ma wspomagać moderatorów poprzez automatyczne wyszukiwanie i wstępną klasyfikację podejrzanych materiałów. Będzie on jednocześnie proponować kolejność zgłoszeń tak, aby pierwsze były te, które wymagają najszybszej interwencji (są potencjalnie najbardziej szkodliwe).
Potencjalnymi klientami programy APAKT mogą być: dostawcy internetu, duże portale, policja, biegli sądowi, a także zagraniczne instytucje zajmujące się usuwaniem z sieci treści o charakterze pedofilskim. APAKT radzi sobie z wykrywaniem pedofilii na wideo i zdjęciach, a także w tekstach. Obecnie obsługuje on jedynie język polski, jednakże wykorzystane w nim m.in. model RoBERTa czy wektory StyloMetrix dostępne są w języku angielskim oraz ukraińskim.
Projekt jest finansowany z grantu przyznanego przez Narodowe Centrum Badań i Rozwoju.

To date, we have developed a detailed project concept, including business requirements, diagrams and schematics reflecting the project objectives:

<ul>
<li>We have built a research environment with a data repository.</li>
<li>We have developed the legal framework necessary due to the sensitivity of the content to be analyzed.</li>
<li>We developed material class definitions related to CSAM materials and annotations.</li>
<li>We conducted a psychological workshop for all project team members. 
We collected and classified neutral materials.</li>
<li>We collected materials depicting sexual abuse of minors (CSAM), and compiled data obtained from the National Prosecutor&#8217;s Office.</li>
<li>We completed scientific tasks in the fields of biometrics and machine intelligence, as well as machine learning in text analysis.</li>
</ul>

Do tej pory opracowaliśmy szczegółową koncepcję projektu, w tym wymagania biznesowe, diagramy i schematy odzwierciedlające założenia projektu, a także:

<ul>
<li>zbudowaliśmy środowisko badawcze wraz z repozytorium danych;</li>
<li>opracowaliśmy ramy prawne konieczne ze względu na wrażliwość analizowanych treści;</li>
<li>opracowaliśmy definicje klas materiałów związanych z materiałami CSAM oraz adnotacje;</li>
<li>przeprowadziliśmy warsztaty psychologiczne dla wszystkich członków zespołu projektowego;</li>
<li>zgromadziliśmy i sklasyfikowaliśmy materiały neutralne;</li>
<li>zgromadziliśmy materiały przedstawiające seksualne wykorzystanie osób małoletnich (CSAM) i opracowaliśmy dane pozyskane z Prokuratury Krajowej;</li>
<li>zrealizowaliśmy zadania naukowe w dziedzinie biometrii i inteligencji maszynowej oraz uczenia maszynowego w analizie tekstów.</li>
</ul>
O projekcie w prasie: 
<a href="https://serwisy.gazetaprawna.pl/nowe-technologie/artykuly/8723201,sztuczna-inteligencja-moderacja-tresci-internet.html">&#8220;AI wspomoże moderatorów w blokowaniu nielegalnych treści&#8221; w Dziennik Gazeta Prawna</a>

Automatic search, analysis and classification of highly harmful web content (APAKT)

Challenge