Форум » Милитера (militera.lib.ru) » Вопросы насчёт PDF- формата » Ответить

Вопросы насчёт PDF- формата

Ктырь: Собственно вопрос такой - необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества (материалы очень старые - 1943 года - ещё немного "потерь" и вообще трудно будет разобрать что либо) - как это можно сделать?

Ответов - 10

assaur: В Photoshop CS2, например, можно открыть страницу и делать с ней все что угодно.

craft: Ктырь пишет: необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества (материалы очень старые - 1943 года - ещё немного "потерь" и вообще трудно будет разобрать что либо) - как это можно сделать? Выделить текст в PDF можно только если этот фрагмент был текстом в первоисточнике документа, т.е. если PDF создавался из текстового документа ака, например, Ворд. И если создатель PDF разрешил таковую возможность. Если первоисточником был, скажем, сканер - тогда там (в PDF) текста как такового вообще нету. Есть изображения букв. ЗЫ. Некоторые OCRы умеют PDF. ЗЗЫ. Некоторые PDF умеют не отдавать себя OCRам. ЗЗЗЫ. В наихудшем варианте - распечатать этот лист, взять сканер, взять OCR и OCRу сказать где на скане текст, а где картинки ЗЗЗЗЫ. OCR - распознаватель текста из картинок. Например - FineReader.

craft: assaur пишет: В Photoshop CS2, например, можно открыть страницу и делать с ней все что угодно. Ага, если не учитывать того, что Фотожоп и PDF разработаны одной фирмой. И если в PDF забит запрет копирования содержимого (такая фича в PDF предусмотрена), то Фотожоп его хрен откроет. Опять таки, это не дает возможность получить из картинки текст.


amyatishkin: Есть программы-конверторы ПДФ. Типа PDF Image Extraction Wizard Вытаскивают из ПДФ все картинки в сложенном туда качестве. Если ПДФ защищенный, то надо еще прогу типа PDF Password Remover для разблокировки.

assaur: Ну вот, на каждую Фотож... есть Мятишкин с винтом! Теперь мне понятен смысл его аватора...

Ктырь: Народ всем спасибо щас экспериментирую - вроде нормально получается. Оказался случай тот что указывал craft. В общем страничка получается - что единственно возможно в данной ситуации и с учётом моей пещерности в данном вопросе. Ещё раз спасибо.

vlad: Ктырь пишет: Собственно вопрос такой - необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества а в чем проблема ?- в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет.

Ктырь: vlad пишет а в чем проблема ?- в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет. У меня какой-то комбайн читающий и DjVU и PDF стоял - он чё-то так не может - простенький слишком...

craft: vlad пишет: в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет. А у меня - 8. Еще раз - craft пишет: Выделить текст в PDF можно только если этот фрагмент был текстом в первоисточнике документа, т.е. если PDF создавался из текстового документа ака, например, Ворд. И если создатель PDF разрешил таковую возможность. Не Ваш Акробат, а тот кто создал конкретный Ваш PDF. Вам просто попался незащищенный PDF, созданный из текста. Бывают и другие. У них бывает даже защита от распечатки. Не то чтобы от копирования фрагмента. Просто Вам не встречалось.

vlad: craft пишет: У них бывает даже защита от распечатки. Не то чтобы от копирования фрагмента. Просто Вам не встречалось. ага, ясненько: ну против таких штучек есть средства. Вот есть такой мощный пакет LaTex под Win.. for free ! Так вот один из тулов pdftotex - так прямо и называется- применяете к сходному файлу- и он весь в текстовом формате. Другое дело картинки- они скорее всего исчезнут после такого преобразования.



полная версия страницы