Show simple item record

dc.contributor.authorNødland, Bernt Ivar Utstølen_GB
dc.contributor.authorGisnås, Hallvaren_GB
dc.contributor.authorGråtrud, Henriken_GB
dc.contributor.authorSkretting, Vidar Benjaminen_GB
dc.date.accessioned2021-11-05T13:21:15Z
dc.date.available2021-11-05T13:21:15Z
dc.date.issued2021-04-28
dc.identifier1537
dc.identifier.isbn978-82-464-3376-9en_GB
dc.identifier.urihttp://hdl.handle.net/20.500.12242/2947
dc.description.abstractAnalysts and researchers are facing an ever increasing amount of information. Finding ways to identify relevant information on fuzzy topics and concepts can thus accelerate the analyst. We investigate the method of using deep learning for semantic content search in a large text corpus. We test several state of the art models, such as ULMFiT and transformer based models. Deep learning models leverage large public corpuses to achieve a comprehensive understanding of language, such as next word prediction, to aid it’s prediction of relevance. We compare them to a baseline of keyword search on a test case of approximately 50 000 articles from Jordan Times, where we try to identify articles about jihadist terror plots. We find that the best deep learning models outperform keyword search, indicating that these techniques could provide a useful tool for the analyst. However, they require effort to set up properly, and are much more complex compared to the baseline. We recommend to do further testing of these methods, both in English and in other languages.en_GB
dc.description.abstractAnalytikere og forskere står overfor en stadig økende mengde informasjon. Derfor kan det å finne nye måter å identifisere informasjon om spesifikke emner og konsepter akselerere an alytikeren. Vi undersøker teknikker fra dyp læring for å søke etter spesifikt semantisk innhold i en stor tekstsamling. Vi tester flere av de nyere tekstforståelsesmodellene, som ULMFiT og transformer-baserte modeller. Dyp læring modeller bruker store offentlige tekstkorpus for å oppnå grundig forståelse av språk. Vi sammenligner dem med stikkordssøk på et testtilfelle bestående av ca. 50 000 artikler fra Jordan Times, der vi prøver å finne artikler om jihadistiske t errorplot. Vi finner at de beste modellene basert på dyp læring gjør det bedre enn stikkordssøk. Dette indikerer at disse teknikkene kan være nyttige for analytikere. Et forbehold er at disse teknikkene krever en del innsats for å sette opp og er mye mer komplekse enn stikkordssøk. Vi anbefaler å gjøre mer testing av disse metodene, både på engelsk og andre språk.en_GB
dc.language.isoenen_GB
dc.subjectDyp læringen_GB
dc.subjectJihaden_GB
dc.subjectMaskinlæringen_GB
dc.subjectTerrorismeen_GB
dc.titleContent search in large text corpuses using natural language processingen_GB
dc.source.issue21/00022en_GB
dc.source.pagenumber29en_GB


Files in this item

This item appears in the following Collection(s)

Show simple item record