Новости    Старинные книги    Книги о книгах    Карта сайта    Ссылки    О сайте    


Русская дореформенная орфография


Книговедение

А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я A B D








07.02.2012

Миллионы рукописей ждут ручной оцифровки

Один монах-переписчик X века жаловался на свою долю: «Попробуйте-ка сами, и вы узнаете, насколько трудна работа писца: в глазах становится темно, спина болит, грудь прилипает к животу. Это тяжёлое испытание для всего тела».

Тем не менее сегодня в архивах работают тысячи интернет-добровольцев, отдающих свободное время расшифровке самых разнородных документов, от наблюдений за птицами до меню нью-йоркских ресторанов рубежа прошлого века.

Конечно, они трудятся в более комфортных условиях, чем средневековая монастырская братия, и могут остановиться в любой момент. В то же время приходится ломать глаза и голову, разбирая плохой почерк и бледные чернила. «Это медленно и утомительно», — подчёркивает Мартин Стрэссер, президент организации Distributed Proofreaders Foundation, сотрудничающей с проектом «Гутенберг». Тем не менее на неё горбатятся более двух тысяч человек по всему миру.

Инициаторы подобных проектов прекрасно понимают, что человеческая культура постепенно перемещается в Интернет, и люди хотят видеть там в том числе исторические документы. А исследователям нужна удобная база данных для поиска и сортировки исторической литературы с помощью компьютерных программ.

В то же время машина пока не может расшифровывать текст так же эффективно, как человек. Г-н Стрэссер полагает, что пройдёт не меньше двадцати лет, прежде чем появятся достаточно дешёвые технические средства расшифровки рукописей, которыми смогут пользоваться некоммерческие организации. Вот только один пример. В 2006 году на семинаре «Технологии семейной истории» Дуглас Кеннард и Уильям Барретт из Университета им. Бригама Янга (США) представили программу для чтения рукописей, которую обучали по типизированному письму. Компьютеру предложили 200 страниц писем Джорджа Вашингтона, и машина смогла распознать в среднем лишь одну букву из трёх.

И это в тексте, который разделён на слова и имеет только одно направление!

Есть и другое решение: сканировать страницы. В отличие от простых фотографий, сканы можно снабдить тегами и возможностью поиска, хотя и не полнотекстового. Даже это становится хорошим подспорьем специалистам.

Так что с работой вручную ничто не сравнится. Её нельзя упрекнуть даже в том, что она продвигается медленно, ибо с сентября 2000 года волонтёры Distributed Proofreaders Foundation добавили в проект «Гутенберг» 22 625 книг, а участники проекта Old Weather с октября 2010-го расшифровали 839 084 страницы судовых журналов британских кораблей.

Самой большой проблемой, конечно, остаётся точность расшифровки, но целый ряд специальных исследований показал, что опасаться почти нечего. «У нас есть редактор, который проверяет работу добровольцев. Они справляются очень хорошо», — говорит Шарон Леон, возглавляющий усилия Университета Джорджа Мейсона (США) по расшифровке документов американского военного ведомства XVIII века. Некоторые проекты поручают расшифровку одной страницы нескольким сотрудникам: например, Old Weather действует по принципу 3:1. Точность составляет 97%.

Привлечение добровольцев — лучший вариант и с финансовой точки зрения. Приступая к своему проекту, Университет Джорджа Мейсона прекрасно понимал, что за расшифровку 45 тыс. документов никто не заплатит, а вот энтузиазма — хоть отбавляй. Секрет, вероятно, в том, что такая работа — вариант вдумчивого чтения, которое тот ещё наркотик.

Подготовлено по материалам Innovation News Daily.


Источники:

  1. КОМПЬЮЛЕНТА







© REDKAYAKNIGA.RU, 2001-2019
При использовании материалов активная ссылка обязательна:
http://redkayakniga.ru/ 'Редкая книга'

Рейтинг@Mail.ru

Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь