«Яндекс» научил свои нейросети расшифровывать архивы с дореволюционной орфографией

25.01.2023, 11:58

Фото: РИА Новости © 2021, Виктор Толочко

Сервис «Поиск по архивам» открывает всем желающим доступ к более чем 2,5 миллионам страниц документов.

«Яндекс» обучил нейросети расшифровывать архивные документы с дореволюционной орфографией. С историческими документами с текстовой расшифровкой можно ознакомиться уже сейчас, доступ к соответствующему сервису открыт. Об этом в среду сообщает пресс-служба «Яндекса».

Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и, как уточняется в сообщении компании, «понимает особую структуру архивных документов». Разработчики обучали нейросеть на материалах главархива Москвы, это сотни тысяч рукописных строк из реальных текстов XVIII- XIX веков, а также на десятках миллионов сгенерированных примеров. Разработанная технология может с легкостью разобрать текст, который неподготовленный человек вряд ли сможет понять.

Специалисты «Яндекса» отмечают, что для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а новый сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач.

Помимо материалов главархива Москвы, база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться. Уже сейчас сервис «Поиск по архивам» открывает всем желающим доступ к более чем 2,5 миллионам страниц документов.

Материалы можно найти по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

«Яндекс» запустил сервис «Поиск по архивам», в котором собраны более 2,5 млн страниц исторических рукописных документов с текстовой расшифровкой. Об этом сообщает пресс-служба компании.

Рукописные дореволюционные документы расшифровывает нейросеть. Отмечается, что специалисты обучали ее на массиве данных из сотен тысяч рукописных строк реальных текстов XVIII-XIX вв. из Главархива Москвы, а также десятков миллионов сгенерированных примеров. Перед этим они сами разметили и расшифровали исторические материалы .

С помощью технологии пользователи могут найти в базе сервиса нужный документ с упоминанием фамилии, населенного пункта и др. Поиск текстов доступен по каталогу или через строку поиска, также есть фильтры по годам, архивам, фондам и описям. Расшифрованный нейросетью документ отображается справа от оригинала, при наведении курсора на нужный фрагмент, он сразу подсветится на цифровой копии текста, пояснили в пресс-службе.

Помимо документов Главархива Москвы, в базе также можно найти тексты из архивов Оренбургской и Новгородской областей. Разработчики обещают, что в будущем в сервисе станет еще больше доступных документов.

В ноябре 2022 г. «Яндекс» также обучил нейросеть находить места по сложным запросам в «Яндекс.Картах». При обработке запроса она анализирует не только описание и ключевые слова, но и другие параметры — фотографии, отзывы и меню.

Читайте также