Разработан поисковик для изучения древних рукописей

В НИЯУ МИФИ в Лаборатории цифровой лингвистики разрабатывается лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси», которая будет способна распознавать церковно-славянские рукописи XI-XVIII веков и представлять их выборку под конкретный запрос. Для формирования корпуса изучаемых объектов специалисты лаборатории – сотрудники Института интеллектуальных кибернетических систем НИЯУ МИФИ и Института русского языка им. В.В. Виноградова РАН выбрали богослужебные книги – Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего, и что немаловажно, сохранилось в хорошем состоянии. «В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, – говорит руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. – Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить как менялся текст, слово или знак на протяжении времени». Лингвистическая интеллектуальная среда задумана как человеко-машинный интерфейс с элементами самообучения. То есть в нее можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания. «Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что на «открытом поле», где ничего не размечено, нейронная сеть даст высокоточный результат. Если же материала будет недостаточно, то система сделает много ошибок. Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс. Чем больше мы обработаем рукописей на этом этапе, тем релевантнее будет ответ на запрос пользователя — будь то поиск по текстам или изображениям», – добавляет Дмитрий Демидов. Церковно-славянские тексты имеют свои особенности, которых нет в других языках – это титлы, то есть надстрочные знаки сокращения слов, и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке, не существует (поэтому параллельно в Лаборатории работают над созданием Морфологического словаря, где будут даны леммы со всеми словоформами и вариациями написания). Плюс – в рукописях масса нотированных страниц с «крюками» и «знаменами»: это безлинейное древнерусское нотное письмо с черточками, запятыми и точками, способ записывать движение голоса, ускорение или замедление темпа пения и звуковые акценты. Прибавьте к этому, что не все страницы рукописей одинаково хорошо сохранились, где-то есть пятна, грязь, пожелтения, утраты, потрёпанность, поэтому разница в яркости изображения не всегда может служить достаточным основанием для его сегментации. Нейросеть должна научиться распознавать изображение в нескольких режимах сразу – в различных цветах, изгибах линии. У филологов же в этом проекте свои цели – создать инструменты для изучения средневековых текстов.. «Почему историкам языка это интересно? Минеи – это огромный и практически не изученный корпус церковно-славянских текстов, содержащий службы на каждый день года, 12 томов, по одному тому на каждый день месяца, – рассказывает ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева. – И нет инструмента освоения этого массива. Поэтому машинное обучение и нейросети, которыми занимаются в рамках этого проекта в НИЯУ МИФИ, даст филологам совершенно иные возможности. Они смогут работать сразу с огромными объемами похожих, но не идентичных текстов». Изучение и сравнение этих похожих, но всё же разных текстов даст исследователям возможность понять в исторической перспективе где, когда и почему происходили изменения в языке – в его лексике, синтаксисе, пунктуации, орфографии. Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так же, как это делается сейчас в Яндексе. Проект позволит увидеть развитие языка «в движении», увидеть все варианты использования интересующей вас буквы или слова – во всех рукописях, внесенных в базу данных. У каждого исследователя будет в системе свой отдельный кабинет, где он сможет решать те задачи, которые интересны именно ему. И что очень важно – это будет открытый проект, доступный всем. А дальше можно будет применить наработанные алгоритмы и для рукописей на других древних языках, причем не только славянских – зарубежные исследователи уже проявляют большой интерес к этому проекту....

Разработан поисковик для изучения древних рукописей

Сообщает android-robot.com

 

Новость из рубрики:

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

В Мексике найдены затопленные шахты древних индейцев 22:00, 16 Мар В Мексике найдены затопленные шахты древних индейцев 12 тыс. лет назад люди рисковали жизнью, чтобы добыть охру. Охра применялась у индейцев и как краситель, и как антисептик, и как ритуальный атрибут; Фото: Pixabay На территории восточного побережья Юкатана в Мексике группой исследователей из США и К...

В Западной Австралии нашли затопленные поселения древних аборигенов 15:00, 19 Апр В Западной Австралии нашли затопленные поселения древних аборигенов Найденные у побережья Плибара артефакты тысячи лет пролежали под водой нетронутыми. В прошлом 160 км береговой линии были заселены первыми жителями Австралийского континента; Фото: Pixabay Австралия имеет богатую историю – первые люди начали обживат...

Разработан локатор для БПЛА 16:00, 21 Фев Разработан локатор для БПЛА Сотрудниками Инжинирингового центра НИЯУ МИФИ разработан портативный радиолокатор, предназначенный для установки на беспилотных летательных аппаратах. Устройство позволяет сканировать земную поверхность с большой высоты и при любой погоде. Как расск...

Разработан ловкий четвероногий робот 21:00, 21 Апр Разработан ловкий четвероногий робот Четвероногие роботы, также известные как четвероногие роботы, обладают преимуществами, в том числе способностью быстро передвигаться по сложной местности и сохранять низкий центр тяжести. Некоторые четвероногие роботы также могут манипулировать объе...

Разработан гибкий многослойный окрашиваемый прозрачный электрод 06:00, 30 Авг Разработан гибкий многослойный окрашиваемый прозрачный электрод Исследовательская группа под руководством доктора Юнг-Дэ Квона из Департамента энергетики и электронных материалов Корейского института материаловедения преуспела в создании первого в мире прозрачного тонкопленочного солнечного элемента на гибкой по...

Разработан новый подход к визуальному распознаванию мест 15:00, 23 Май Разработан новый подход к визуальному распознаванию мест Визуальное распознавание мест (VPR) — это задача определения места, где были сделаны определенные изображения. Ученые-компьютерщики недавно разработали различные алгоритмы глубокого обучения, которые могут эффективно решать эту задачу, сообщая польз...

Разработан робот, помогающий общаться слепым детям 11:00, 14 Апр Разработан робот, помогающий общаться слепым детям Португальские ученые из Высшего технического института в Лиссабоне - UTL создали робота, который помогает общаться детям с нарушениями зрения. Его представили на Международной конференции по взаимодействию человека и робота ACM/IEEE 2023. Ученые ада...

Разработан инструмент на основе ИИ для обнаружения DDoS-атак 22:00, 02 Мар Разработан инструмент на основе ИИ для обнаружения DDoS-атак Новый инструмент на основе ИИ для обнаружения DDoS-атак. Киберпреступники придумывают все более изощренные способы нарушить работу онлайн-сервисов, получить доступ к конфиденциальным данным или вывести из строя устройства пользователей Интернета. Ки...

20:00, 06 Дек Разработан миниатюрный и прочный спектрометр для переносных приложений Исследователи разработали спектрометр с тонким чипом, который подходит для носимых приложений. Надежное устройство «лаборатория на кристалле» из нитрида галлия также может выдерживать суровые условия с сильным излучением, например, при освоении косм...

03:00, 11 Фев Разработан фреймворк машинного обучения, который кодирует изображения, как сетчатка Исследователи EPFL разработали подход машинного обучения для сжатия данных изображений с большей точностью, чем методы вычислений без обучения, с применением для имплантатов сетчатки и других сенсорных протезов. Основной проблемой разработки более с...

22:00, 27 Ноя Разработан мягкий суперконденсатор, который можно использовать для питания имплантируемых устройств Команда биоинженеров из Университета Ланьчжоу, Даляньского технологического университета и Цинхайского педагогического университета, находящихся в Китае, в сотрудничестве с парой коллег из Университета штата Пенсильвания в США, разработала мягкий им...