проблемы OCR

Форум » Милитера (militera.lib.ru) » проблемы OCR » Ответить

проблемы OCR

Snarka: Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим: 1) есть ли где хороший (душевный :) ФАК по ОКРу? 2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке? Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :). Фот, такая грустная история.. И это только первый из вопросов... А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Ответов - 49, стр: 1 2 All

Snarka: Эээ.. вы не думайте, что это только мечтания - я уже половину «Нюрнбергского дневника» Гильберта отсканила и все опечатки вычитала. И тут такой облом :(.

S.N.Morozoff: Самое простое: приехать и поучиться. Хотите? Есть возможность. Вы ведь, как я понимаю, в Москве? Мыло я указал (наконец-то не забыл после очередной переучтановки системы!) - напишите. Этот вопрос вполне решаемый.

S.N.Morozoff: Вопросы по железу не глядя рассматривать сложно. Reader 7.0 я и сам не пользую. Обхожусь пятым, но есть и четвертый. Оба, само собой, работают нормально :) Мне, однако, из PDF ничего распознавать не надо. Вообще по железу могу сказать такую вещь: На Intel Pentium Pro (был такой агрегат!) 200MHz (256Kb кэша 2 уровня на частоте ядра) на плате уровня FX-чипсета под управлением Windows NT 4.0 Workstation стоит 5-й ридер и вполне работает в смысле скорости. Это не Athlon1200, конечно, но работать вполне себе можно. Память: SIMM 72pin, 64Mb.

Snarka: Огромное спасибо за быстрый ответ! :) Я вам мыло напишу.

amyatishkin: вот тут посмотрите, может поможет что-то. http://www.amyat.narod.ru/faq/faq.html Каждая следующая версия ФР работает в несколько раз чище предыдущей. По крайней мере меньше 5 версии ставить не советую. У меня она занимала ~50мб. Как вариант дОбычи копии ФР - ставится демоверсия и вся работа делаетс за сколько там ограничение стоит (было 15 часов или 15 запусков). Для продолжения работы придется систему с нуля переставлять. Кряки 4/5/6 где-то должны быть.

Snarka: Спасибо! Правда, хороший ФАК (и даже с макросами). Насчет кряков - пока попробую воспользоваться любезным предложением г-на Морозофф :).

Hoaxer: Хочу отметить, что после 15.XII я реанимирую раздел по подготовке текстов. Там будет учтен многолетний (sic!) опыт, естественно -- не только мой, в том числе очень полезные заметки А. Мятишкина, Змия, других товарищей (в т.ч. по djvu). Раздел будет разбит на две части -- собственно советы по оцифровке, общие, так сказать, и конкретно технологическая цепочка для Милитеры (понятно, что можно использовать и для других сайтов, занимающихся тем же).

McShley: Из собственного опыта: краком нужно воспользоваться ДО ТОГО, как истечет демо-срок. Никакие попытки сделать это после - ни к чему не привели (вариант переустановить систему не рассматривался). Единственно, что помогло, - это поставить другую версию. Система ее не знает, и все как бы начинается сначала. Может, умельцы редактировать системный регистр могли бы подсказать что-то другое. А вообще - не чурайтесь новых версий FR. Каждая из них делает меньше ошибок при распознавании, чемпредыдущая.

assaur: Здравствуйте! Надежный кряк с инструкцией для 6-й версии могу выслать хоть сейчас. Ситуации Вашей можно только посочувствовать. Железо надо конечно улучшать. В принципе не так уж много и надо. Процессор - ок. 400 Мгц, винт 2 Гб. Всего доброго.

S.N.Morozoff: Кряк надежный можно мне отослать? Для коллекции: хоть и не пользую, но мало ли когда что пригодится?!. Не срочно, конечно, а как не лень будет.

bdfy: А что на http://www.forum.ru-board.com/ сложно найти соответствующий кряк ? до сих пор там находилось все что было нужно. У меня сейчас стоит 7ой файнридер с русским модулем - 80метров на диске занимает (инсталятор 40 +10метров до языков и пр.). Запускал правда всего пару раз - текст распознал отлично , вот только часть рисунков тоже решил прогнать как текст ( или схемы ) очень коряво выходит . Щас буду задачник по физике сканить ( нужно по учебе ) чувствую подучусь.

Snarka: цитатаЗапускал правда всего пару раз - текст распознал отличноВо-во :))). Пару раз. Вы запустите 30 раз, а потом и посмотрим, насколько ваш кряк хорош. В том и проблема со всеми кряками продуктов ABBYY, с Лингвами разных версий у меня была та же история. Пжалста, и в инете кряки, и на дисках-сборниках везде эти программы валяются. И ставятся, и работают... некоторое время.

S.N.Morozoff: Это точно. Защита у них неплохая. Нет таких крепостей, которые не взяли бы большевики...

bdfy: Snarka Вот лингво9 у меня точно стоит сполгода безпроблем и запускаю я его каждый день . Кряк рубородовский как раз. Как максимум этот самый файнридер может стучаться на свой сервер пока вы в инете и проверять валидность серийника ( промт так делает , адманчер , лингво + еще куча прог) . Я правда пока не замечал этого , но файер все равно подобного не допустит :D Так что рекомендую Outpost,ZoneAlarm и тп

Snarka: ОК, спасибо, при случае вашу наводку попробую :)

assaur: Возможно детский лепет, но на время сканирования отключаю антивирус и программа начинает себя вести очень прилично.

S.N.Morozoff: Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

assaur: Тонкостей не знаю. Где-что конфликтует определить не могу, но при включенном антивирусе отключался сканер. И не помогала даже переустановка программы сканера и «файна».

S.N.Morozoff: Любопытно!..

assaur: S.N.Morozoff пишет: цитатаЧестно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду... Вот вчитался внимательно в инстукцию к крэку: 3. Во время работы с Finereader’ом при включённом резидентном стороже SpIDer Guard антивируса DrWeb возможно зависание системы в момент сохранения документов по не зависящим от лоадера причинам. У меня , правда висло при сканировании.

Zealot: Самый лучший FineReader, на мой взгляд, этой 6-й без кряка, он ставиться, работает и не жужжит. Вообще никаких проблем. цитатаЧестно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду... Это, наверное каспер, а доктор вэб работает не заметно, пока не нарвется на большой архив.

assaur: Посоветйте арнтивирус! Очень не доволен Касперским, пробовал ставить Norton - вообще «труба». Есть какой нибудь надежный и ненадоедливый?

amyatishkin: Dr. Web нормально работает. Это до 4.31 версии. Потом 4.32 начал денег просить, и я впросто в 4.31 переписываю базы от нового.

S.N.Morozoff: Doctor Web. Касперского, говорят, ежели настроить!.. У меня ни разу не получилось его настроить так, чтобы он перестал тормозить. Но вообще-то я давно уже не ставлю антивирус в резидентах. А нерезидентно - да все равно, вообщем-то, какой. Просто к DrWeb я давно привык.

assaur: Андрею и Сергею. Спасибо за совет!

constantin: ребяты - работал с фаняридерами с 4 по 7 все крякнутые естественно. Что-то таких траблов не видел пахали и пахали. Не вру у мужика одного слетал 6 при переходе на новый год. Систему не надо переустанавливать - в реестре его вычистить надо он там вроде в одном месте все пишет в папку свою ее и грохаете в реестре. Где-то на болванах все эти версии есть - если очень нужно можно передать. 7 конечно лучше 4 но в основном на сложных местах - типа таблицы жрет лучше. Еще учтите что если шрифт идет с обычного листа А4 то можно сканировать с 200 дпи а мелкий шрифт и 400 может потребовать. Весьма полезна уборка мусора и подчистка ластиком всякой бяки (например снос черноты по центру и краям скана заметно уменьшает размер) нужно также подправлять разметку - фаня иногда мудрит особливо при наличии картинок и грязи

assaur: Все так, конечно. Но все-таки это отличная программа! Кстати 6 и 7 версии иногда и заголовки пропускают. О таблицах и не говорю, - я обычно их выделяю текстовым блоком, затем правый щелчок и «анализ таблицы». Не совсем удобно, но зато наверняка. Хотя и это требует дополнительной обработки.

MacShley: А таблицы помечаю как таблицы и потом прочерчиваю отдельно каждую вартикальную и горизонтальную линии. Кроме габаритных, естественно. Фокусы типа одна общая «шапка» на две колонки потом приходится делать вручную.

amyatishkin: Ответ неверный. Самое хитрое - есть на вкладке «Распознавание» в опциях у таблиц галки «нет объединенных ячеек» и «одна строка в ячейке». Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки) А настоящие проблемы появляются, когда в таблице сделано заполнение строки точками - ФР ее на распознает. Приходиться или ластиком вытирать точки, или поверх таблицы кидать еще один текстовый блок и из него вытаскивать текст по ячейкам.

MacShley: amyatishkin пишет: цитатаПотом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки) Вот это я и назвал «делать вручную», имея в виду - уже в Ворде. А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Zealot: amyatishkin , каждая новая версия доктора вэба требует новый ключ, даже если переходить с 4,31а на 4,31b в этом и есть его неудобство, хоть бери да покупай. Кстати у меня где-то был ключ к 4.32а, если надо могу выслать.

assaur: MacShley пишет: цитатаА в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале. Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление 431 шап 765 шап 434 иап 2 гиап далее все это обобщается справа одной общей фигурной скобкой. Это как-то можно отразить в тексте?

amyatishkin: assaur пишет: цитатаОчень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление Вертикальная черта, чтоб пришлась на скобку, а потом делать объединение ячеек по правой кнопке мауса.

MacShley: Я бы сделал так: скобку объявить картинкой; в Ворде межстрочный интервал соответствующего такста подогнать под размер скобки или размер картинки со скобкой под высоту текста. ИЛИ: объявить картинкой все вместе: и скобку, и текст, который она объединяет. Я так делал, когда сканировал большие рисунки со многими надписями. Это делалось для перевода, который должен был сохранять верстку страницы. Большая возня при этом - заменять надписи их переводом с использованием textbox’ов

S.N.Morozoff: А в чем неудобство? Покамест дополнительные базы данных для версии 4.32 вполне ложатся на версию 4.30 - на хрена козе баян? В смысле, зачем обновлять версию?

S.N.Morozoff: Для мелкого шрифта неплохо помогает также сканирование с увеличением. Особливо касается тех, у кого сканер с верхним пределом в 300dpi. Ставим масштаб в 150% (а вообще из опыта и размера шрифта) и все вполне проходит. К скану же. Основная рабочая лошадка моя для текстов - HP Scanjet IIP образца 1991г. Великий аппарат! Цвета он не поддерживает (только grayscale), разрешение верхнее - 300 dpi. И контроллер к нему нужен. Но орел!.. Купили его года три назад, как хлам (контроллер дороже вышел в итоге), но с тех пор я на него молюсь.

S.N.Morozoff: Отставить проверку архивов!

S.N.Morozoff: Это называется «Прочтите же, наконец, инструкцию!» Анекдот такой есть.

amyatishkin: Сколько, интересно, такое чудо стоило в 1991 году? 10-20 штук баксов? И какая скорость сканирования выходит?

S.N.Morozoff: Вот сколько он тогда стоил - не скажу, но думаю, первые тысячи гриновых. Все же не А3. А купили мы его за $10, потому как хлам, хотя и рабочий. Контроллер к нему (новый, кстати, TEKRAM то ли 370, то ли 390, обошелся в примерно $20). Про скорость сканирования: время сканирования всей области (немного больше, чем А4) в двухцветном режиме (Black&White) при масштабе 100% и разрешении 300dpi - ровно 14 секунд (от момента нажатия на кнопку «Scan», т.е с подготовкой и без возврата лампы в исходное положение - только что специально замерил). Разворот книги как правило несколько меньше А4, так что получается даже побыстрее - секунд 10-12. Размер файла формата TIFF 5.0 при этом - 1,1 Mb (при сканировании реальных книг - меньше мегабайта из-за размера). Сканер вообще сделан грамотно - прижим очень прилично обеспечивается крышкой. Очень легко расположить разворот ровно. На худой конец, в сочетании с двумя аккумуляторами для UPS (прижим разворота) - начисто отпадает чернота по краям страницы даже при плохом переплете. Для примера: не так давно сканил обещанные Hoaxer’у брошюры (всего три): 32 стр., 72 стр., 81 стр. и одну (32 стр.) для себя. Уложился за час с небольшим. Войдя в раж сканирования, решил добить начатую раньше стенограмму процесса Ф.Г. Пауэрса, 1960г. издания (оставалось еще 180 стр.). Еще за час с небольшим сделал (переплет здорово мешал, пришлось расшивать). В общем, классная машинка.

S.N.Morozoff: И все равно: таблица - это беда...

S.N.Morozoff: Не, они работают, если сломаны грамотно. Тут вся проблема изначально была в этом. Сейчас работает 4.0 и все нормально вроде как. Просто бывают Дистрибутивы и дистрибутивы...

assaur: ------› Мятишкину Андрей! Прошу поделиться с обществом своей технологией работы. Лично у меня проблема такая: есть сканы (tiff, серый, - разворот весит около 8 Мб). На винте вся книга около 4 Гб. Хранить все на винчестере не хочу, писать на RV в tiff тоже не устраивает (для меня это много и еще боюсь запутаться при делении на куски для записи). Как перевести все это пакетом в Djvu (способ нащупал, но не знаю какие характеристики нужно вводить, чтобы получить хорошее качество)? Имиджей 20 я перевел, получил пакет в том числе и с файлом directory, вроде то что надо, но уж слишком долго все это конвертируется. Подскажите, пожалуйста, что нибудь для ускорения процесса. А еще лучше приведите всю технологическую цепочку, хотя бы кратко. На amyat.narod.ru подробностей не нашел. Вот еще что: в книге много схем и картинок (почти на каждой странице). Перевод в djvu лишает возможности обработать ее в FotoShop? Всего доброго. Петр.

amyatishkin: Имеются ввиду сканы книг? Сканиться в серый ТИФФ 300дпи (ну или по потребности – мелкий шрифт лучше в 400). Края страниц при этом обрезаются. Если есть желание сохранить такое на СД, то конвертится в JPG, качество 92 в 100-бальной шкале. Т.е. я при таком качестве потерь не вижу, и потому так сохраняю. Ес-но, это только сохранение файлов – работать-то надо все равно с ТИФФ. Конвертится через ACDSee. Картинки загоняются в Файнридер, причем без разрезания страниц, но с переводом в ч/б. Далее для приготовления сканов может оказаться несколько вариантов содержания и качества материала: 1)Просто текст + схемы без штриховки 2)Схемы со штриховкой, гравюры, т.п. 3)Фотографии Первый вариант – картинки из Файнридера сохраняются как ТИФФы, единственная проблема – черная полоса по сгибу. Полоску ручками убираем в Фотошопе – желательно вытащить пару кнопок (или клавиш), чтобы можно было выделить – одним кликом очистить – одним кликом сохранить и закрыть. Заодно можно почистить мелкие помарки. В принципе это автоматизируется, но ручками проще и надежней. Проблемы получаются, когда Файнридеру не удается самостоятельно выделить текст - приходиться ручками переводить в Фотошопе. Брать серый исходник и, отрегулировав яркость/контрастность/кривые, перевести в ч/б (там вариант должен быть «50%уровень черного»). В результате получается то, что должен был выдать Файнридер, только ручками. Штриховка/гравюры – Файнридер их портит, но не всегда. Можно сделать по первому варианту, но страницы с такими гравюрами проверить и при неудачной обработке сделать вручную. (Ес-но, выбирать тут надо из количества этих гравюр) А можно автоматически сделать пакетный перевод Фотошопом из серого в ч/б. Надо выбрать несколько страниц, на них протестировать действие перевода в ч/б (можно и регулировку яркости добавить), а потом обработать весь пакет. Потом опять таки – полоска сгиба убирается, помарки чистятся. Но это более сложный вариант получается, поэтому через Файнридер в ч/б предпочтительней. Далее – через пакетирование Фотошопом режем ч/б картинки пополам, т.е. делаются два действия, которые отрезают левую и правую половинку. Сохранение идет в разные директории. Потом ACDSee переименовываем файлы с левой страницей в *1, а с правой в *2, сливаем в одну директорию и делаем нормальную нумерацию соответственно номерам страниц. Резать лучше через Фотошоп, т.к. он реже обрезает текст, чем резка страниц в Файнридере. Далее – можете учесть такой момент, что при добавлении страницы в пакет Файнридера делается выравнивание страниц. (Ес-но, в схемы, чертежи и т.п. вещи это вносит искажения. Ваше дело – учитывать это при работе или нет – можно все делать в обход Файнридера). Лично я считаю выравнивание оч. полезным делом и после получения одиночных страниц еще раз прогоняю через Файнридер, чтобы он их попробовал выровнять. Т.е. сделать еще пакет – добавить страницы – сохранить изображения. На выходе получаем скан в ч/б в ТИФФ без сжатия, примерно 500 кб на страницу. Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Сохраняется (точнее пакует) долго. Получается файл DjVu ч/б, одним куском. Если надо что-то из него вытащить – приходиться сохранять по одной странице в BMP. Если нужен просто файл для работы, без эстетических претензий – можно существенно упростить, сразу Файнридер и в DjVu. Ну и книжка с фотами. DjVu эти фоты шибко портит, так что ценные желательно давать отдельно. Несколько фот можно с проблемами воткнуть в DjVu, не ухудшив качество получаемой книги, но, если их много – проще сделать книгу по второму варианту (фоты выйдут как при ксероксе), а фотографии дать отдельно. А)сделать страницы с фотами в сером. Делается из серых ТИФФ, в DjVu Solo отвечать вместо Bitonal - Scanned. Минусы такие, что фон страницы практически всегда получается серым, размываются буквы текста, и – может при сжатии ошибиться с буквой – например вместо И будет Н. Б)Муторный способ – берется вариант страницы в ч/б и в сером. Фота выделяется по границам и копируется в ч/б вариант (конечно, вначале ч/б переводиться в оттенки серого, чтобы нормально вставилось). И в DjVu переводиться из такого файла. Я обычно делаю отдельно DjVu файл в ч/б и в сером (с отдельными страницами). Потом они сливаются и страницы в сером загоняются на нужные места.

assaur: Большое спасибо. Петр.

amyatishkin: Да, в обновлении на сайте было про вытаскивание из фйла DjVu страниц - через XnView вполне работает. Вообще, этот XnView очень неплохая програмулина, единственно, что было хуже, чем в ACDSee - сортировка по размеру изображения. Сейчас это есть.

Смолянин: amyatishkin пишет: цитатаПеревод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Использовал DjVu Solo 3.1 Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с этим бороться?

amyatishkin: По моему, это так ругается на сжатые страницы. Возможно, часть тифф была в варианте WIN или МАС. Я в таких случаях делаю дополнительное конвертирование в ACDSee - вариант TIFF без сжатия и 300 dpi. Полученное обычно съедобно. Еще м.б. бага с пустыми страницами - но Solo по другому тогда ругается.

Hoaxer: ---› Смолянин ›Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ›ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с ›этим бороться? Так обычно происходит, когда человек пытается вогнать в DjVu Solo имиджи из пакета Файнридера, особенно старых версий. ФР как-то хитро их сжимает, тифы. Раньше я поступал просто -- пропускал пакет через Фотошоп (делал простенькую action -- типа открыть, перевести в серый, закрыть и сохранить), а потом они без проблем грузились в Solo. Сейчас вместо бесплатного Solo сделан весьма и весьма платный DocumentExpress. Вроде бы он у меня есть. И еще мне прислали несколько новых программ, надо разобраться... Ещё см. http://www.cqham.ru/djvu_print.htm

полная версия страницы