Правила участия в чемпионате по распознаванию сибирских газет XIX века

Правила участия в чемпионате по распознаванию сибирских газет

Чемпионат по распознаванию сибирских газет (далее Чемпионат)
Организатор: Научная библиотека ТГУ
Дата и время проведения: 27 мая 2023 г., начало в 10:00 по московскому времени.

Чемпионат проводится в гибридном формате. Количество мест для очного участия ограничено, место проведения - кибер-класс Научной библиотеки ТГУ, пр. Ленина 34а, цокольный этаж, онлайн участники получат ссылку на трансляцию чемпионата не позднее, чем за сутки до начала.

Регистрация на Чемпионат открыта с 16 по 26 мая https://project.lib.tsu.ru/newspaper
Продолжительность работы участников Чемпионата - 100 минут
Победителем становится Участник, качественно распознавший наибольшее количество символов.
Оглашение результатов состоится 29 мая 2023 г. в 8:00 по московскому времени.
Список победителей и участников чемпиона с результатами появится на сайте Чемпионата https://project.lib.tsu.ru/results и будут направлены уведомления на электронную почту.

Правила работы по распознаванию текста

Распознавать нужно все буквы и символы, которые видны в газете.
При этом, оценивается и влияет на итоговый результат корректность распознавания. Если текст распознан "чисто" и не содержит ошибок, то Участник чемпионата получает все свои баллы по счётчику, который находится в профиле пользователя на PRO Сибирь.

Если распознанный текст Участника чемпионата "грязный"и содержит ошибки, то считается количество ошибок на 100 символов и вычисляется средний % ошибок в тексте, на который уменьшается итоговый результат.
Распознавать текст в газете удобнее всего слева направо, по колонкам. Можно использовать инструменты PRO Сибирь для увеличения текста газеты, листания страниц и другие.

Рекомендуется делить текст на абзацы, выделять заголовки текста жирным, следовать регистру букв в распознанном тексте, удалять лишние пробелы. Для этого на PRO Сибирь есть инструменты редактирования:

Есть две стратегии редактирования распознанного текста источника

1. Редактировать уже автоматически распознанный текст. Это более сложный вариант, поскольку текст включает много "информационного шума" и не привычен для современного человека.

2. Вторая стратегия заключается в удалении с "рабочего поля" автоматически распознанного текста и наборе текста сначала. Мы рекомендуем вторую стратегию. Выбор за Вами!