Форум » Милитера (militera.lib.ru) » проблемы OCR » Ответить

проблемы OCR

Snarka: Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим: 1) есть ли где хороший (душевный :) ФАК по ОКРу? 2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке? Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :). Фот, такая грустная история.. И это только первый из вопросов... А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Ответов - 49, стр: 1 2 All

Snarka: Эээ.. вы не думайте, что это только мечтания - я уже половину «Нюрнбергского дневника» Гильберта отсканила и все опечатки вычитала. И тут такой облом :(.

S.N.Morozoff: Самое простое: приехать и поучиться. Хотите? Есть возможность. Вы ведь, как я понимаю, в Москве? Мыло я указал (наконец-то не забыл после очередной переучтановки системы!) - напишите. Этот вопрос вполне решаемый.

S.N.Morozoff: Вопросы по железу не глядя рассматривать сложно. Reader 7.0 я и сам не пользую. Обхожусь пятым, но есть и четвертый. Оба, само собой, работают нормально :) Мне, однако, из PDF ничего распознавать не надо. Вообще по железу могу сказать такую вещь: На Intel Pentium Pro (был такой агрегат!) 200MHz (256Kb кэша 2 уровня на частоте ядра) на плате уровня FX-чипсета под управлением Windows NT 4.0 Workstation стоит 5-й ридер и вполне работает в смысле скорости. Это не Athlon1200, конечно, но работать вполне себе можно. Память: SIMM 72pin, 64Mb.


Snarka: Огромное спасибо за быстрый ответ! :) Я вам мыло напишу.

amyatishkin: вот тут посмотрите, может поможет что-то. http://www.amyat.narod.ru/faq/faq.html Каждая следующая версия ФР работает в несколько раз чище предыдущей. По крайней мере меньше 5 версии ставить не советую. У меня она занимала ~50мб. Как вариант дОбычи копии ФР - ставится демоверсия и вся работа делаетс за сколько там ограничение стоит (было 15 часов или 15 запусков). Для продолжения работы придется систему с нуля переставлять. Кряки 4/5/6 где-то должны быть.

Snarka: Спасибо! Правда, хороший ФАК (и даже с макросами). Насчет кряков - пока попробую воспользоваться любезным предложением г-на Морозофф :).

Hoaxer: Хочу отметить, что после 15.XII я реанимирую раздел по подготовке текстов. Там будет учтен многолетний (sic!) опыт, естественно -- не только мой, в том числе очень полезные заметки А. Мятишкина, Змия, других товарищей (в т.ч. по djvu). Раздел будет разбит на две части -- собственно советы по оцифровке, общие, так сказать, и конкретно технологическая цепочка для Милитеры (понятно, что можно использовать и для других сайтов, занимающихся тем же).

McShley: Из собственного опыта: краком нужно воспользоваться ДО ТОГО, как истечет демо-срок. Никакие попытки сделать это после - ни к чему не привели (вариант переустановить систему не рассматривался). Единственно, что помогло, - это поставить другую версию. Система ее не знает, и все как бы начинается сначала. Может, умельцы редактировать системный регистр могли бы подсказать что-то другое. А вообще - не чурайтесь новых версий FR. Каждая из них делает меньше ошибок при распознавании, чемпредыдущая.

assaur: Здравствуйте! Надежный кряк с инструкцией для 6-й версии могу выслать хоть сейчас. Ситуации Вашей можно только посочувствовать. Железо надо конечно улучшать. В принципе не так уж много и надо. Процессор - ок. 400 Мгц, винт 2 Гб. Всего доброго.

S.N.Morozoff: Кряк надежный можно мне отослать? Для коллекции: хоть и не пользую, но мало ли когда что пригодится?!. Не срочно, конечно, а как не лень будет.

bdfy: А что на http://www.forum.ru-board.com/ сложно найти соответствующий кряк ? до сих пор там находилось все что было нужно. У меня сейчас стоит 7ой файнридер с русским модулем - 80метров на диске занимает (инсталятор 40 +10метров до языков и пр.). Запускал правда всего пару раз - текст распознал отлично , вот только часть рисунков тоже решил прогнать как текст ( или схемы ) очень коряво выходит . Щас буду задачник по физике сканить ( нужно по учебе ) чувствую подучусь.

Snarka: цитатаЗапускал правда всего пару раз - текст распознал отличноВо-во :))). Пару раз. Вы запустите 30 раз, а потом и посмотрим, насколько ваш кряк хорош. В том и проблема со всеми кряками продуктов ABBYY, с Лингвами разных версий у меня была та же история. Пжалста, и в инете кряки, и на дисках-сборниках везде эти программы валяются. И ставятся, и работают... некоторое время.

S.N.Morozoff: Это точно. Защита у них неплохая. Нет таких крепостей, которые не взяли бы большевики...

bdfy: Snarka Вот лингво9 у меня точно стоит сполгода безпроблем и запускаю я его каждый день . Кряк рубородовский как раз. Как максимум этот самый файнридер может стучаться на свой сервер пока вы в инете и проверять валидность серийника ( промт так делает , адманчер , лингво + еще куча прог) . Я правда пока не замечал этого , но файер все равно подобного не допустит :D Так что рекомендую Outpost,ZoneAlarm и тп

Snarka: ОК, спасибо, при случае вашу наводку попробую :)

assaur: Возможно детский лепет, но на время сканирования отключаю антивирус и программа начинает себя вести очень прилично.

S.N.Morozoff: Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

assaur: Тонкостей не знаю. Где-что конфликтует определить не могу, но при включенном антивирусе отключался сканер. И не помогала даже переустановка программы сканера и «файна».

S.N.Morozoff: Любопытно!..

assaur: S.N.Morozoff пишет: цитатаЧестно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду... Вот вчитался внимательно в инстукцию к крэку: 3. Во время работы с Finereader’ом при включённом резидентном стороже SpIDer Guard антивируса DrWeb возможно зависание системы в момент сохранения документов по не зависящим от лоадера причинам. У меня , правда висло при сканировании.

Zealot: Самый лучший FineReader, на мой взгляд, этой 6-й без кряка, он ставиться, работает и не жужжит. Вообще никаких проблем. цитатаЧестно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду... Это, наверное каспер, а доктор вэб работает не заметно, пока не нарвется на большой архив.

assaur: Посоветйте арнтивирус! Очень не доволен Касперским, пробовал ставить Norton - вообще «труба». Есть какой нибудь надежный и ненадоедливый?

amyatishkin: Dr. Web нормально работает. Это до 4.31 версии. Потом 4.32 начал денег просить, и я впросто в 4.31 переписываю базы от нового.

S.N.Morozoff: Doctor Web. Касперского, говорят, ежели настроить!.. У меня ни разу не получилось его настроить так, чтобы он перестал тормозить. Но вообще-то я давно уже не ставлю антивирус в резидентах. А нерезидентно - да все равно, вообщем-то, какой. Просто к DrWeb я давно привык.

assaur: Андрею и Сергею. Спасибо за совет!

constantin: ребяты - работал с фаняридерами с 4 по 7 все крякнутые естественно. Что-то таких траблов не видел пахали и пахали. Не вру у мужика одного слетал 6 при переходе на новый год. Систему не надо переустанавливать - в реестре его вычистить надо он там вроде в одном месте все пишет в папку свою ее и грохаете в реестре. Где-то на болванах все эти версии есть - если очень нужно можно передать. 7 конечно лучше 4 но в основном на сложных местах - типа таблицы жрет лучше. Еще учтите что если шрифт идет с обычного листа А4 то можно сканировать с 200 дпи а мелкий шрифт и 400 может потребовать. Весьма полезна уборка мусора и подчистка ластиком всякой бяки (например снос черноты по центру и краям скана заметно уменьшает размер) нужно также подправлять разметку - фаня иногда мудрит особливо при наличии картинок и грязи

assaur: Все так, конечно. Но все-таки это отличная программа! Кстати 6 и 7 версии иногда и заголовки пропускают. О таблицах и не говорю, - я обычно их выделяю текстовым блоком, затем правый щелчок и «анализ таблицы». Не совсем удобно, но зато наверняка. Хотя и это требует дополнительной обработки.

MacShley: А таблицы помечаю как таблицы и потом прочерчиваю отдельно каждую вартикальную и горизонтальную линии. Кроме габаритных, естественно. Фокусы типа одна общая «шапка» на две колонки потом приходится делать вручную.

amyatishkin: Ответ неверный. Самое хитрое - есть на вкладке «Распознавание» в опциях у таблиц галки «нет объединенных ячеек» и «одна строка в ячейке». Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки) А настоящие проблемы появляются, когда в таблице сделано заполнение строки точками - ФР ее на распознает. Приходиться или ластиком вытирать точки, или поверх таблицы кидать еще один текстовый блок и из него вытаскивать текст по ячейкам.

MacShley: amyatishkin пишет: цитатаПотом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки) Вот это я и назвал «делать вручную», имея в виду - уже в Ворде. А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Zealot: amyatishkin , каждая новая версия доктора вэба требует новый ключ, даже если переходить с 4,31а на 4,31b в этом и есть его неудобство, хоть бери да покупай. Кстати у меня где-то был ключ к 4.32а, если надо могу выслать.

assaur: MacShley пишет: цитатаА в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале. Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление 431 шап 765 шап 434 иап 2 гиап далее все это обобщается справа одной общей фигурной скобкой. Это как-то можно отразить в тексте?

amyatishkin: assaur пишет: цитатаОчень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление Вертикальная черта, чтоб пришлась на скобку, а потом делать объединение ячеек по правой кнопке мауса.

MacShley: Я бы сделал так: скобку объявить картинкой; в Ворде межстрочный интервал соответствующего такста подогнать под размер скобки или размер картинки со скобкой под высоту текста. ИЛИ: объявить картинкой все вместе: и скобку, и текст, который она объединяет. Я так делал, когда сканировал большие рисунки со многими надписями. Это делалось для перевода, который должен был сохранять верстку страницы. Большая возня при этом - заменять надписи их переводом с использованием textbox’ов

S.N.Morozoff: А в чем неудобство? Покамест дополнительные базы данных для версии 4.32 вполне ложатся на версию 4.30 - на хрена козе баян? В смысле, зачем обновлять версию?

S.N.Morozoff: Для мелкого шрифта неплохо помогает также сканирование с увеличением. Особливо касается тех, у кого сканер с верхним пределом в 300dpi. Ставим масштаб в 150% (а вообще из опыта и размера шрифта) и все вполне проходит. К скану же. Основная рабочая лошадка моя для текстов - HP Scanjet IIP образца 1991г. Великий аппарат! Цвета он не поддерживает (только grayscale), разрешение верхнее - 300 dpi. И контроллер к нему нужен. Но орел!.. Купили его года три назад, как хлам (контроллер дороже вышел в итоге), но с тех пор я на него молюсь.

S.N.Morozoff: Отставить проверку архивов!

S.N.Morozoff: Это называется «Прочтите же, наконец, инструкцию!» Анекдот такой есть.

amyatishkin: Сколько, интересно, такое чудо стоило в 1991 году? 10-20 штук баксов? И какая скорость сканирования выходит?

S.N.Morozoff: Вот сколько он тогда стоил - не скажу, но думаю, первые тысячи гриновых. Все же не А3. А купили мы его за $10, потому как хлам, хотя и рабочий. Контроллер к нему (новый, кстати, TEKRAM то ли 370, то ли 390, обошелся в примерно $20). Про скорость сканирования: время сканирования всей области (немного больше, чем А4) в двухцветном режиме (Black&White) при масштабе 100% и разрешении 300dpi - ровно 14 секунд (от момента нажатия на кнопку «Scan», т.е с подготовкой и без возврата лампы в исходное положение - только что специально замерил). Разворот книги как правило несколько меньше А4, так что получается даже побыстрее - секунд 10-12. Размер файла формата TIFF 5.0 при этом - 1,1 Mb (при сканировании реальных книг - меньше мегабайта из-за размера). Сканер вообще сделан грамотно - прижим очень прилично обеспечивается крышкой. Очень легко расположить разворот ровно. На худой конец, в сочетании с двумя аккумуляторами для UPS (прижим разворота) - начисто отпадает чернота по краям страницы даже при плохом переплете. Для примера: не так давно сканил обещанные Hoaxer’у брошюры (всего три): 32 стр., 72 стр., 81 стр. и одну (32 стр.) для себя. Уложился за час с небольшим. Войдя в раж сканирования, решил добить начатую раньше стенограмму процесса Ф.Г. Пауэрса, 1960г. издания (оставалось еще 180 стр.). Еще за час с небольшим сделал (переплет здорово мешал, пришлось расшивать). В общем, классная машинка.



полная версия страницы