Яндекс подвел итоги работы «Поиска в архиве», копье 25 января 2023 года. По данным компании, за год нейросеть расшифровала более 10 миллионов страниц исторических документов, а пользователи просмотрели их более 20 миллионов раз.
Сейчас в архивном поиске присутствуют материалы из архивов 11 регионов, в том числе Москвы. Москва, Оренбургская, Новгородская, Иркутская, Астраханская и другие области. Всего за год нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX века: более 10 миллионов страниц или 492 миллиона строк.
Archive Search также хранит расшифрованные архивные файлы (например, книги измерений и аудиторские отчеты), содержащие информацию о людях, родившихся в России до революции. Кроме того, сервис содержит 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Московский вечер» и епархиальные вестники.
Обратите внимание, что технология дешифрования в Archive Search основана на оптическом распознавании символов. Нейронная сеть распознает символы, потерявшие свою актуальность (например, исчезнувшие буквы алфавита), учитывает особенности почерка и за секунды преобразует трудночитаемые записи в печатный текст. Нейронную сеть специально адаптировали для работы с версткой газетных страниц: она научилась распознавать текст на больших полосках, набранный мелкими буквами на бумаге низкой плотности.