Программисты из Южной Кореи разработали DarkBERT — языковую модель, обученную на основе информации из даркнета. ИИ можно использовать для поиска и индексации информации, распространяемой в «скрытом» сегменте интернета.
Даркнет — это часть Интернета, которая остается скрытой и недоступной через стандартные веб-браузеры. Здесь распространены анонимные веб-сайты и торговые площадки, которые способствуют незаконной деятельности. Среди них — сайты по торговле наркотиками, оружием продаже украденных данных.
Недавние исследования показали, что существуют явные различия в языке, используемом в даркнете, по сравнению с языком основного интернета. Поэтому существующие языковые модели плохо справляются с анализом данных в теневом сегменте интернета. Программисты подключили свою модель к сети Tor, популярной системы, используемой для анонимизации в интернете. Им удалось собрать необработанные данные даркнета для создания базы и обучения ИИ.
Исследователи считают, что DarkBERT можно использовать для различных целей кибербезопасности, включая выявление веб-сайтов, которые продают программы-вымогатели или публикуют конфиденциальные данные. Кроме того, он может ежедневно просматривать регулярно обновляемые форумы даркнета и следить за любым незаконным обменом информацией.
Программисты протестировали эффективность работы свой модели по сравнению с популярными ИИ и программой RoBERTa, которую исследователи разработали еще в 2019 году для поиска «намеренно скрытых участков текста в неаннотированном языке». Анализ показал, что DarkBERT превосходит известные аналоги в качестве поиска и классификации информации в даркнете.