Forskere har demonstreret en algoritmebaseret automatiseret løsning, der er sammenlignelig med og undertiden bedre end mennesker til korrekt identifikation af falske nyhedshistorier. Systemet, der identificerer talende sproglige signaler i falske nyhedshistorier, kunne give nyhedsaggregator og sociale mediesider som Google Nyheder et nyt våben i kampen mod misinformation..
En automatiseret løsning kunne være et vigtigt redskab for websteder, der kæmper for at håndtere et angreb af falske nyhedshistorier, ofte skabt for at generere klik eller for at manipulere den offentlige mening, sagde Rada Mihalcea, professor i University of Michigan bag projektet, i en erklæring.
Det nye system med succes fundet forfalskninger op til 76 procent af tiden sammenlignet med en menneskelig succesrate på 70 procent, ifølge undersøgelsen, der blev præsenteret den 24. august på den internationale konference om computinglingvistik i Santa Fe, New Mexico.
Forskerne mener, at deres sproglige analysetilgang også kunne bruges til at identificere falske nyhedsartikler, der er for nye til at blive debunkeret ved at krydshenvise deres fakta med andre historier. Den sproglige analysetilgang analyserer kvantificerbare attributter som grammatisk struktur, ordvalg, tegnsætning og kompleksitet.
Til undersøgelsen oprettede Mihalceas team sine egne data og Crowdsourcing af et onlineteam, der reverse-engineerede verificerede ægte nyhedshistorier til forfalskninger. Dette er, hvordan de fleste faktiske falske nyheder oprettes, sagde Mihalcea, af enkeltpersoner, der hurtigt skriver dem til gengæld for en monetær belønning.
Studiedeltagere blev betalt for at gøre korte, aktuelle nyheder til lignende, men falske nyheder, der efterlignede artiklernes journalistiske stil. I slutningen af processen havde forskergruppen et datasæt på 500 ægte og falske nyhedshistorier. De fodrede derefter disse mærkede par historier til en algoritme, der udførte en sproglig analyse og lærte sig selv at skelne mellem reelle og falske nyheder..
Endelig forvandlede holdet algoritmerne til et datasæt med ægte og falske nyheder trukket direkte fra internettet og nådde succesraten på 76 procent. Detaljerne i det nye system og datasættet, som holdet brugte til at bygge det, kunne bruges af nyhedssider eller andre enheder til at opbygge deres egne falske nyhedsdetekteringssystemer, sagde Mihalcea.