Каждая новость до попадания на страницу портала «Инфоротор» проходит довольно долгий путь.
Сначала, исходя из текста новости, определяется, к каким рубрикам и регионам она относится, на какие ранее загруженные системой новости похожа по основным семантическим конструкциям.
В зависимости от степени похожести семантических конструкций свежая новость либо попадает в существующий сюжет, либо связывается с той, на которую похожа (связанные новости можно увидеть в блоке «Читайте также» на странице сюжета). Если новость попала в сюжет и степень похожести семантических конструкций оригинальной и новой новости — более 95%, новая новость считается перепечаткой оригинального сообщения.