Путешествие по книжным полкам. Глава 1, предисловие.
Надеюсь, вы простите меня за это введение, но я хотел, прежде чем перейду к рассказу о книжках, кое-что заявить и кое о чем рассказать.
Заявляю следующее - я никогда не составлял и не намерен делать этого и впредь рекомендательных списков литературы, не давал советов своим знакомым и друзьям (за исключением жены) о том, что им читать. Считаю это принципиально важным и исхожу из того, что сам почти никогда не прислушивался к советам "знатоков", за исключением каких-то особо-специальных случаев в области профессиональной и справочно-энциклопедической. Моим путеводителем в мире книг были сами книги и их авторы. А хороший автор непременно и очень хороший читатель, причем порою даже трудно разобрать, что в нем главное. Так что книги, о которым я буду говорить, просто книги, которые нравились мне и которые именно поэтому я делаю достоянием других читателей. А уж захотят ли они их читать - это совершенно не мое дело.
Рассказ же пойдет о том, что есть сканирование книг, или говоря профессионально, что такое OCR или Optical character recognition. Вот краткая справка из Вики:
Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.
Звучит красиво и оптимистично, но я расскажу совсем о другом - о своем опыте в этом OCR, чтобы на моем примере вы могли составить на сей счет свое собственное мнение. И все, что я скажу, основано будет исключительно на практике сканирования.
Итак, что нужно начинающему окаэрщику в первую очередь?
Самый простой ответ гласит - книги, сканер, глаза, руки и много свободного времени.
А теперь чуть сложнее - книги, которые считаешь необходимым сделать достоянием других людей, очень много терпения, владение необходимыми инструментами и программами, высокий уровень грамотности, хорошее зрение, стремление сделать оцифрованную книгу максимально близкой к оригиналу. А еще быть готовым к расходам - на технику, очки, глазные капли. Жестокосердие ко многим любимым книжкам, для которых процесс сканирования отнюдь не безвреден и в результате из некогда аккуратненького томика ты можешь получить пачку разрозненных страниц. Это касается клеенных, а не прошитых книжек.
О некоторых принципах уважающего себя сканировщика.
1. В оцифрованной тобою книжке не должно быть ошибок. Ошибки же возникают в результате следующих причин:
- ошибки распознавания, связанные с качеством типографского текста, четкостью шрифтов, белизной бумаги, ошибками программы распознавания (все программы допускают ошибки);
- ошибки, связанные с субъективным фактором, т.е. неполной грамотностью, невнимательностью, ленью и т.п.
- ошибки редакторские, типографские, корректорские. Нет книжки, которая не содержала бы таких ошибок. Особенно много их в солидных научных изданиях, в том числе изданных изд-вом Академии наук, а также книг 90-х и последующих годов, когда даже должность корректора во многих издательствах была упразднена.
Ошибки автора книги за ошибки сканировщиком не признаются - автор для него священная корова и коррекции не подлежит.
2. Особое внимание нужно уделять иллюстрациям книги. Качество этих иллюстраций очень часто из рук вон плохое, поэтому страницы с рисунками, картинами, фотографиями, картами сканируются в графическую программу (фотошоп, например, хотя я пользуюсь другой), где графика подвергается дополнительной обработке и лишь затем образ страницы скармливается программе распознавания.
3. Если ты не готов к систематической ежедневной трате времени на работу с книгами, то лучше и вовсе за это не берись - все равно ничего хорошего из этого не получится. Я знал немало очень активных и продуктивных окаэрщиков, которые через год-два слиняли и больше никогда не попадались мне на глаза.
4. Прежде, чем браться за сканер, поищи в инете, может эта книжка давным-давно кем-то сделана. Тем не менее не один раз мне приходилось сканить книги, ранее сделанные другими. Причина - очень плохое качество сделанной работы. Более того, мне приходилось пересканивать и мною же сделанные сканы, чтобы привести их к возможно близкому к оригиналу виду. Речь идет о книгах, которые мне были особенно дороги.
5. Лично я признаю только сканы с распознанным и вычитанным текстом, а не их фотообраз, т.е. картинка, а не текст. Исключение было только одно - книга на основе старой орфографии, которую я получил всего на пару дней и в отвратительном состояние. Ее я просто представил в графическом виде. Читать можно - цитировать, копировать и пр. - нельзя.
Сколько и чего сделано.
Каждый опытный окаэрщик рано или поздно приходит к своим нормативам, которые в свою очередь зависят от многих из вышеназванных условий и причин. Моя нынешняя норма 100-120 стр. в день с двумя вычитками и коррекцией форматирования текста, т.е. полная и законченная работа. Но бывают книжки, которые приходится вычитывать и по 3 раза. Помню, что один 2-томник в 500 страниц я делал полгода и был готов плюнуть и бросить эту работу. Но дурацкий принцип доводить все до конца не дал мне это сделать. Вот и считайте - на странице примерно 400-450 слов или 1800-2000 символов. Первая вычитка сплошная, т.е. побуквенная, вторая интеллектуальная с помощью спеллчекера программы распознавания. Кстати, мой пользовательский словарь к этой программе давно перевалил за 200 тыс внесенных в него мною слов. К примеру вордовский словарь не позволит вам добавить больше 5 тысяч. В год получается от 30 до 40 тыс страниц. За 9 с лишком лет уже более 200 тысяч, т.к. первые годы я себя щадил, а сейчас время поджимает. Сканер у меня уже 5-й, скоро 6-й нужно брать, очки 4-е, но уже нужны новые. А книг сделано всего около 450. Это совсем немного, поверьте, и в очереди пока еще около 200, на большее просто не замахиваюсь, не настолько я оптимист.
И в заключение скажу, что говорить буду только о книжках, которые сканировал, а не о книжкам вообще. Разве что в комментах что-то может всплыть. И еще раз извините за такое длинное и почти наверняка лишнее предисловие.
Комментарии