Форум

Приказ о рассекречивании документов ВОВ

tsv: http://www.garant.ru/hview.php?ssid=32&pid=97997&dt=federal [quote]МИНИСТЕРСТВО ОБОРОНЫ РОССИЙСКОЙ ФЕДЕРАЦИИ П Р И К А З 8 мая 2007 г. N 181 Зарегистрировано в Минюсте РФ 05 июня 2007 г. Регистрационный N 9589 "О рассекречивании архивных документов Красной Армии и Военно-Морского Флота за период Великой Отечественной войны 1941 - 1945 годов" В соответствии с Законом Российской Федерации от 21 июля 1993 г. N 5485-1 "О государственной тайне" (Собрание законодательства Российской Федерации, 1997, N 41, стр. 8220 - 8235, N 41, ст. 4673; 2003, N 27 (ч. I), ст. 2700, N 46 (ч. II), ст. 4449; 2004, N 27, ст. 2711, N 35, ст. 3607) приказываю: 1. Снять грифы секретности с архивных документов Красной Армии и Военно-Морского Флота за период Великой Отечественной войны 1941 - 1945 годов, находящихся на хранении в Центральном архиве Министерства обороны Российской Федерации, в Центральном военно-морском архиве и архиве военно-медицинских документов Военно-медицинского музея Министерства обороны Российской Федерации: а) управлений и учреждений Генерального штаба Красной Армии, Народного Комиссариата Военно-Морского Флота, видов и родов войск, специальных войск, Тыла Красной Армии, управлений по вооружению и военной технике; б) фронтов, военных округов, флотов, армий, флотилий, соединений, воинских частей и учебных заведений, а также управлений и учреждений, входящих в состав фронта, военного округа, флота; в) политических органов, партийных и комсомольских организаций фронтов, военных округов, флотов, армий, флотилий, соединений, воинских частей, управлений, учебных заведений и учреждений; г) кадровых органов Красной Армии и Военно-Морского Флота; д) военных госпиталей, медико-санитарных частей и учреждений, военно-медицинских и военно-врачебных комиссий. 2. Контроль за выполнением настоящего приказа возложить на начальника Архивной службы Вооруженных Сил Российской Федерации. Министр обороны Российской Федерации А. Сердюков [/quote] Thanks to серж http://vif2ne.ru/nvk/forum/4/co/1453146.htm

Ответов - 320, стр: 1 2 3 4 5 6 7 8 All

Малыш: VIR пишет: Пример нормального электроного архива я уже приводил - американская патентная служба. Понятно, что последние 10-15 лет они поступающие патенты переводят в цифру. Но тоже самое сделали и со своим архивом. Сэр гражданин VIR, Вы и в самом деле до такой степени не в теме или просто исключительно удачно притворяетесь... э-э-э... альтернативно одаренным, как говорят на Вашей новой Родине? С какими запросами приходят в патентную службу? Угу, с запросами о приоритете (категория "сущность патентуемой новинки") либо об авторе/номере/дата патента. Но стоит Вам задать запрос "Перечислите все запатентованные за последние 30 лет изделия, содержащие латунные детали" - и...? Вот только не надо мне рассказывать волшебных сказок о том, что гениальная поисковая система незамедлительно даст ответ на Ваш запрос. А чтобы аналогия была Вам понятна, обратитесь к предмету живого интереса нашего коллеги 917 - действия авиации против танков. Для получения выборки по таком запросу ("Сколько танков было выведено из строя авиацией?") всего только и надо, что прошерстить десятки/сотни/тысячи отчетов о боевых действиях и о ремонте поврежденных танков на предмет того, есть в оных отчетах разблюдовка по причинам потерь или нет. VIR пишет: Так что решение технических проблем уже давно найдено. Конечно. Вы знаете, для человека, который от обсуждаемых тем далек, как от Плутона, и не собирается в них разбираться, в темах, как правило, вообще никаких проблем нет. Что Вами и продемонстрировано в очередной раз. VIR пишет: "Создавать мировые стандарты" - это моя работа. Вы, должно быть, хотели сказать, что Ваша работа - с умным видом говорить ученые словеса, не ударяя и пальцем о палец для практической реализации? Те вещи, о которых говорю я, очевидны любому человеку, хотя бы раз в жизни бравшему в руки архивные документы и работавшему с ними. Кстати, обратите внимание на ветку - сплеча рубят о том, как легко оцифровать архивы, были бы баппки, в основном те, кто архивных документов вообще в глаза не видал, и Вы в первую очередь.

СМ1: Зашел вот на soldat.ru. Сергей ст, Вы правы: оптимизма от нового приказа у людей не прибавилось. Добавим: по авторитетному свидетельству, несмотря на выход нового Приказа МО РФ о рассекречивании документов РККА и РКВМФ за 1941 - 45 гг., который мы публикуем, "воз" пока так и останется на неопределенное время на прежнем месте. В Приказе не прописан механизм реализации рассекречивания. Готовил документ круг ушлых людей, которые знали, что делали, и которым меньше всего хочется приступать к огромной работе. Если бы в Приказе было сказано о том, что все документы подлежат одновременному рассекречиванию с составлением одного общего Акта, исключая то-то и то-то согласно перечня, тогда бы все произошло "автоматом". А пока все будет происходить так, как это в вялотекущем режиме идет уже 3 года, несмотря на обоснованные протесты тысяч людей: рассекречивание документов ГШ и военных округов повторно возложат на управления ГШ и на фондообразователей, которые не спешат и не поспешат заниматься этим, в результате чего почти все документы всех управлений ГШ, видов и родов войск, тыла, военных округов спустя 3 года по-прежнему секретны. Например, документы оргмобуправления штаба Архангельского ВО: из 300 дел несекретны только 7 "несерьезных" дел с копиями приказов мелких частей округа. Рассекречивание документов с уровня "фронт" и ниже вновь будет возложено на ЦАМО РФ. А кому в нем этим заниматься? В архиве сейчас не хватает 35 % от штата исполнителей, грядет новое сокращение штата, народ толпой побежит их архива, ибо будет снято совмещение должностей, за счет чего держатся остатки исполнителей. Рассекречивать будет некому, как некому и сейчас, из-за чего приезд исследователей издалека, к примеру - поисковиков или родственников погибших и пропавших воинов, чреват потерей времени и средств на питание и проживание в Подольске впустую. Некому будет одновременно проверять содержимое дел, заполнять акты и ставить штампы "Рассекречено" и при этом готовить дела к выдаче в читальный зал и отвечать на письменные запросы заявителей. Потому дела останутся нерассекреченными и не будут выдаваться исследователям. А многодесяткотысячный нынешний остаток письменных запросов граждан и организаций, на которые архив так еще и не ответил, будет увеличиваться на пару-тройку десятков тысяч в месяц. Гора родила мышь. Систему нужно менять в корне, это теперь очевидно. Документы ЦАМО РФ периода 1941-45 гг. нужно передавать в гражданское ведение с автоматическим рассекречиванием всех документов этого периода, не подпадающих под охрану прав личности, исключая, например, документы военных прокуратур и трибуналов (но рассекретив именные списки осужденных к ВМН), личные дела воинов.

Малыш: СМ1 цитирует soldat.ru: Документы ЦАМО РФ периода 1941-45 гг. нужно передавать в гражданское ведение с автоматическим рассекречиванием всех документов этого периода, не подпадающих под охрану прав личности, исключая, например, документы военных прокуратур и трибуналов (но рассекретив именные списки осужденных к ВМН), личные дела воинов. "Вы, наверно, будете очень смеяться", но приведенный в документе вывод содержит самого-себя-отрицание. Дело в том, что во вполне уже открытых делах встречается тьма-тьмущая документов о самострелах, пьянках, уголовных преступлениях - со вполне себе фамилиями, именами, отчествами и описаниями мер. Достаточно указать, что в "Разной переписке" 50-й армии, например, лежат себе бумаги ОО НКВД. Ну и как содержание оных бумаг совмещается с "автоматическим рассекречиванием документов, не подпадающих под охрану прав личности"? Угу. Никак. Только ручной просмотр всех дел с возможным изъятием на секретное хранение документов, подпадающих под охрану прав личности. И кто этим будет заморачиваться..? Угу. Никто.


СМ1: Малыш чес слово за что купил за то продал. Меня так в этой цитате заинтересовали не выводы, а, собственно, текущее состояние дел. И настроения тех самых кадров, которые работают, рекомендациями к которым переполнена ветка.

Dp: Малыш пишет: Dp пишет: цитата: ... и м.б даже на распознавание печатных текстов. Сразу видно еще одного квалифицированного тренера по обучению плаванию на берегу . Вы документы-то видели? Там хватает и рукописных (распознавание, ага), и седьмых-десятых копий на хреновой бумаге (буквы изрядно расползлись) через не первой свежести копирку на раздолбанной пишущей машинке. Я поэтому и написал "м.б." Для тех текстов о которых Вы говорите можно например в электронной карточке документа заполнять поля типа "содержание", "тема", "отдельные фразы" специально для поисковой системы. Тут по-моему проблемы нет, понятно что хлопотно, на то и предлагалась как вариант помощь "добровольцев" . Малыш пишет: Угу. На тысячи терабайт. С бэкапом. Или Вы все на диски предлагаете выгружать? Ну и кому и зачем уперлись эти терриконы нарезанных болванок? Что-то я не уверен в правильности таких подсчетов. Исходники (многомегабайтные TIFFы) можно и на болванки сгрузить, если что то высылать нужный док по запросу, а для интернет-версий растровая страничка будет весить меньше мега. UPD: Посмотрел расчет вроде все верно - тысяча терабайт. Это около 7000 жестких дисков (по 150 Гб) по цене 300$ - это будет около 2,1 миллиона $. По сравнению с общими расходами (выше) - это немного. Малыш пишет: И много ли отсканил? Хотя бы миллион страниц набрал? Я уверен что миллион страниц набрал, потому что это всего около 2000-3000 книг получается. Совсем не много. Малыш пишет: Вы знаете, господин Dp, есть такая забавная закономерность - господин Бешанов ни разу в архивах замечен не был, визиты господина Солонина в ЦАМО можно в "Красную книгу" заносить - что, впрочем, не мешает ему усердно наполнять книги первостатейными глупостями. И господин Мартиросян среди посетителей читального зала ЦАМО замечен не был. Однако сие обстоятельство нисколько не препятствует оной когорте достойных мужей печь криатиффы, аки пирожки. Так, может быть, не в доступности документов дело? А в чем? Я вообще эту тему не затрагивал, и до этих господ мне дела нет.

СМ1: Dp пишет: А в чем? Я вообще эту тему не затрагивал, и до этих господ мне дела нет. Я думаю дело не доступности архивных документов, а в желании и стремлении конкретного исследователя с этими документами работать и вводить в научный оборот.

Диоген: Dp пишет: По хорошему надо бы сначало в темпе отсканить хотябы всю ленинку (это, кажется, около 40 миллионов книг) и выложить в открытый доступ (и законы вредительские тоже слегка поменять в этой части) и обеспечить исследователям и всем желающим быстрый доступ к накопленной человечеством информации в полном объеме. Мой приятель работал в Ростове-на-Дону в местной главной публичной библиотеке. Утверждает, что там весь фонд редких книг оцифрован, и CD со сканами легко доступны в читальных залах.

Диоген: Змей пишет: Либо мы тупо сканим все листочки и кладем в одно место в виде картинок, либо распознаем и создаем систему ссылок. Архив работает только во втором случае. А в бумажных архивах какая система ссылок? Выходит, бумажные архивы вообще не работают?

Малыш: Dp пишет: Для тех текстов о которых Вы говорите можно например в электронной карточке документа заполнять поля типа "содержание", "тема", "отдельные фразы" специально для поисковой системы. Угу. Вот берешь, например, "Краткий отчет о боевых действиях 2-й гвардейской танковой бригады", начинающийся на стр. 179 и завершающийся на стр. 218 дела (название и номера страниц реальны), и все убористым почерком - и начинаешь "заполнять отдельные фразы"... Dp пишет: Я уверен что миллион страниц набрал, потому что это всего около 2000-3000 книг получается. Совсем не много. Простите? Средняя книга американской библиотеки "весит" 300-500 страниц? Вы не путаете? Dp пишет: А в чем? Проблема гораздо глубже. Состоит она в том, что колоссальное количество материалов доступно уже сейчас - но с ними никто не желает работать.

AZ: Малыш пишет: А Вы говорите - сканирование Вы совершенно верно заметили насчет поиска и всех сложностей и ньюансов вокруг этого дела. Тут спорить не о чем. Я бы лично отдал приоритет модернизации/созданию качественной базы данных с еффективными опциями поиска. Ну а имея сканы документов (когда-нибудь к этому все же придут) не составит большого труда присоединить к записи файл скана для возможности просмотра.

AZ: smalvik пишет: Кстати, у вас оцифровывали только техническую документацию? Про прочие архивы умолчу, ибо не ведаю. Точно знаю, что ОК имеет свою БД по персоналу (старый добрый MS Access), но там из файлов присоединены только фотографии работников. Кsmalvik пишет: И сколько средств и времени вы предполагаете истратить? В том то и дело, что нужны средства, металл презренный! Можно ведь и в 20 лет уложиться, и в 10 лет, а не в 2000. Имеея неограниченные средства можно теоретически и за 1 день успеть. Не так ли? Вы поставьте задачу (срок), отсюда и расчет будет. Чистая арифметика.

VIR: Малыш пишет: Но стоит Вам задать запрос "Перечислите все запатентованные за последние 30 лет изделия, содержащие латунные детали" - и...? Вот только не надо мне рассказывать волшебных сказок о том, что гениальная поисковая система незамедлительно даст ответ на Ваш запрос. Именно так и происходит. Забейте в поиске "латунные изделия", укажите где именно искать - в названии, в абстракте (вы знаете что это такое?), в тексте, везде, - и система выдаст вам все патенты в обратном хронологическом порядке, содержащие эти слова. Вы можете в этом лично убедиться - патентная служба доспупна для всех из любой точки земного шара и бесплатно. Именно по такой методе я почти всегда ею и пользуюсь. Забиваю ключевое(ые) слово(а) и вперед. Подозреваю, что так большинство людей и делает. Но можно по имени инвентора, эсийни, ихним адресам, и т. п. Например, можно вытащить все патенты и аппликации на патенты инвентора по имени Малыш. Или все патенты инвенторов проживающих в Калифорнии. Для военных архивов, устроенных таким же образом, можно было бы вытащить отдельно все донесения, скажем, в Ставку, подписанные Жуковым (или его псевдонимом). Или наоборот все донесения Куда Надо (если и их архив открыть), а может и в ту же Ставку, на Жукова. Или все донесения Жукова, в которых упоминается какой-то фронт, или город. Их все можно и по годам разложить. Малыш пишет: А чтобы аналогия была Вам понятна, обратитесь к предмету живого интереса нашего коллеги 917 - действия авиации против танков. Для получения выборки по таком запросу ("Сколько танков было выведено из строя авиацией?") всего только и надо, что прошерстить десятки/сотни/тысячи отчетов о боевых действиях и о ремонте поврежденных танков на предмет того, есть в оных отчетах разблюдовка по причинам потерь или нет. Я бы забил для начала "потери танков от авиации", и система выдаст список всех документов, в которых есть именно такое сочетание. Но он, подозреваю, далеко не полный. Поэтому следует поискать отдельно документы в которых есть "потери танков" и "авиация". Есть, возможно, и другие варианты. А если известно какие организации (допустим это только танковые армии и корпуса) и куда представляли отчеты, содержащие подобную информацию, так можно их все вытащить и просмотреть. Поработать, конечно, придется - просмотреть на экране монитора все эти документы, возможно некоторые скопировать себе на диск, подумать, и т.п. Но ведь никто и не утверждал что система электронного поиска заменяет труд и мозги (это только tsv так думает). Она лишь облегчает труд и экономит кучу времени.

VIR: Dp пишет: Что-то я не уверен в правильности таких подсчетов. Исходники (многомегабайтные TIFFы) можно и на болванки сгрузить, если что то высылать нужный док по запросу, а для интернет-версий растровая страничка будет весить меньше мега. Полный текст патентов как они есть в натуре именно в tif'ах. И что в этом плохого?

tsv: VIR пишет: Но ведь никто и не утверждал что система электронного поиска заменяет труд и мозги (это только tsv так думает)

Dp: VIR пишет: Полный текст патентов как они есть в натуре именно в tif'ах. И что в этом плохого? Очень хороший формат, только страничка 600dpi в цвете будет весить десятки мегабайт. Так что пока реальнее(в десятки раз дешевле) их держать на болванках как исходники, а в интернет выкладывать облегченные версии. Когда-то, лет 15 назад, когда в ходу были 40-мегабайтные жесткие диски, от фразы "тысяча гигабайт" тоже отвисала челюсть, а теперь эту тысячу можно встретить в самом захудалом офисе где стоит дюжина машин. Надеюсь тоже в скором времени будет и с "терабайтами", ну а пока наверное для архива в 3 мильярда страниц реальнее выкладывать джипеги, и высылать тифы по запросу.

S.N.Morozoff: VIR пишет: Я бы забил для начала "потери танков от авиации", и система выдаст список всех документов, в которых есть именно такое сочетание. Но он, подозреваю, далеко не полный. Поэтому следует поискать отдельно документы в которых есть "потери танков" и "авиация". Есть, возможно, и другие варианты. Подозреваю, что число документов в этом списке может быть равно нулю, например. Дальнейшие действия? следует поискать отдельно документы в которых есть "потери танков" и "авиация". А вот тут Вы будете завалены документами так, что будете просматривать их до пенсии. Потому что в одном боевом донесении очень часто встречаются следующие фразы: В результате боя имею потери в танках: и Наша авиация в течение дня над полем боя не отмечена. А учитывая тот факт, что разные командиры писали об этом немного по разному: За день имею потери матчасти: например, то? А могут и вовсе слово потери не употребить ни разу: Боеготовых танков в бригаде 26. За день боя сгорело - 3, подбито - 2. Личного состава - убито - 5, ранено - 12. А учитывая, что в список попадут не только боевые донесения, но и оперсводки, отчеты, приказы и протчая, и протчая, и протчая - это будет неплохая трата траффика впустую. Зато при этом в данный список может запросто не попасть ни один акт на списание бронетехники, имеющий прямое отношение к вопросу, потому что нет в нем слова "потери". Поработать, конечно, придется - просмотреть на экране монитора все эти документы, возможно некоторые скопировать себе на диск, подумать, и т.п. Да уж придется, если таким макаром действовать. Но ведь никто и не утверждал что система электронного поиска заменяет труд и мозги (это только tsv так думает). Она лишь облегчает труд и экономит кучу времени. Кучу времени экономит совсем не это. Экономия наступит тогда, когда посылающий запрос хорошо представляет себе, как велось делопроизводство в указанный период времени, представляет - что, где и как искать. А все остальное - это пустая трата траффика, за который кто-то все же должен будет платить. Кто? И кому это все нужно? Разруха - она в головах, да.

smalvik: AZ пишет: В том то и дело, что нужны средства, металл презренный! Можно ведь и в 20 лет уложиться, и в 10 лет, а не в 2000. Имеея неограниченные средства можно теоретически и за 1 день успеть. Не так ли? Вы поставьте задачу (срок), отсюда и расчет будет. Чистая арифметика. Скорее не средства, а ресурсы, которые включают в себя спецов, специяльное ПО и возможно что-то еще. А их еще и готовить надо, ибо работа все-же несколько специфическая. В один день не управитесь Это так-же как и с разработкой - поставили задачу и срок, выделили средства, а дальше началась такая , что и срок увеличился и ресурсов нехватает... А насчет неограниченных средств - это уже в области сфероконей

S.N.Morozoff: Dp пишет: Очень хороший формат, только страничка 600dpi в цвете будет весить десятки мегабайт. Так что пока реальнее(в десятки раз дешевле) их держать на болванках как исходники, а в интернет выкладывать облегченные версии. Так вот сначала его надо таки создать. Со всеми вытекающими. Прикиньте: 3.000.000.000 страниц, 600dpi, TIFF, цвет.

Змей: S.N.Morozoff пишет: 600dpi, цвет + еще пару десятков тысяч евров к цене сканера

Малыш: VIR пишет: Именно так и происходит. Забейте в поиске "латунные изделия", укажите где именно искать - в названии, в абстракте (вы знаете что это такое?), в тексте, везде, - и система выдаст вам все патенты в обратном хронологическом порядке, содержащие эти слова. Вы не могли бы разъяснить мне один вопрос? Скажите, все "создатели мировых стандартов" не слушают никого, кроме себя, или только Вам так повезло? Я ведь написал с примерами: ... любой "простой" поисковый запрос (например, по имени военнослужащего/по названию населенного пункта) завалит пользователя информацией, имеющей весьма отдаленное отношение к запросу (Вы действительно думаете, что во всей многомиллионной Красной Армии был только один Георгий Константинович Жуков, который маршал и первый заместитель Верховного? А запросу "Киев" прекрасно удовлетворяет шифровка командования Воронежским фронтом в 3-ю танковую армию, посланная в феврале 1943-го: "До Киева осталось около 400 км, до разлива рек, приведения в трудно-проходимое состояние дорог осталось 25 суток. Крепко учтите это и обеспечьте всеми мерами такие темпы продвижения, чтобы р.Днепр до распутицы была, безусловно, за нами. На основе Ваших расчетов предъявите требования войскам. Используйте гидрометеоотделение Вашего штаба и постоянно держите в курсе метеообстановки войска."), но, в то же время, отсечет массу вполне релевантной информации, формально не соответствующей запросу (Вы думаете, Жуков все документы подписывал "Г.К.Жуков" ? А как насчет доклада о возможных действиях противника весной-летом 1943 г., подписанных условной фамилией "Константинов" ? А как насчет "Федорова", который на самом деле Н.Ф.Ватутин, и "Степина", который в миру больше известен как И.С.Конев ? А мимо запроса "Берлин" с песнями проедет гора боевых документов времен штурма Берлина, оперирующая названиями "Ланквиц", "Темпельхоф", "Целендорф", "Штеглиц", "Флотт Велль штрассе" и т.д.). VIR пишет: Для военных архивов, устроенных таким же образом, можно было бы вытащить отдельно все донесения, скажем, в Ставку, подписанные Жуковым (или его псевдонимом). "Дяденька, Вы дурак" (с) ? Юзверь открывает поисковую форму и набирает в ней слова: "Г.К.Жуков" - "Найти". Разъясните мне, пожалуйста, как понять, хочет пользователь найти упоминания Георгия Константиновича Жукова - маршала или Григория Клементьевича Жукова, сержанта 43-й Краснознаменной стрелковой дивизии? Попутно разъясните мне, какое отношение условная фамилия "Константинов" маршала Георгия Константиновича Жукова имеет к Григорию Клементьевичу Жукову? А я примеры могу продолжать: в оперсводках 16-й армии за декабрь 1941 г. группа генерала Катукова именуется группой Котукова. Ну так как же их связать, ненаглядный мой? А чтобы Вам совсем хорошо стало, сообщу, что в сентябре 1941 г. был полковник Катуков, возглавлявший 4-ю танковую бригаду, и полковник Катков, тоже танкист. Скажите, когда юзверь запрашивает данные на "Каткова", он Катукова недопечатал, или ему именно Катков нужен? VIR пишет: Я бы забил для начала "потери танков от авиации", и система выдаст список всех документов, в которых есть именно такое сочетание. Получите 0 (ноль) документов. Продолжать? VIR пишет: Но он, подозреваю, далеко не полный. Естественно . VIR пишет: Поэтому следует поискать отдельно документы в которых есть "потери танков" и "авиация". Получите все отчеты о боевых действиях танковых частей, в которых упоминается о собственных потерях и о действиях авиации противника. По моим прикидкам, счет на десятки тысяч пойдет. Про потери танков от авиации будет говориться хорошо коли в одном проценте выданного. VIR пишет: А если известно какие организации (допустим это только танковые армии и корпуса) и куда представляли отчеты, содержащие подобную информацию, так можно их все вытащить и просмотреть. Известно: отдельные танковые батальоны. Отдельные танковые полки. Танковые бригады. Танковые и механизированные корпуса. Армии. Фронты. Подекадно. Вытаскивайте . Ожидаю набросок поискового запроса. VIR пишет: Поработать, конечно, придется - просмотреть на экране монитора все эти документы Угу. Делов-то - несколько сотен тысяч листов текста просмотреть . VIR, попробуйте свыкнуться с одной несложной, в общем-то, мыслью: не надо считать себя просвещенным белым миссионером в краю диких папуасов, не знающих огня и не ведающих истинной веры. Если люди, работавшие с документами, говорят о том, что такие трудности есть - значит, ситуация, по меньшей мере, далеко не так безоблачна, как рисуете умозрительную картину Вы, и приблизительно не ведающий, о чем, собственно, идет разговор.

Aleksey: Малыш пишет: Если люди, работавшие с документами, говорят о том, что такие трудности есть - значит, ситуация, по меньшей мере, далеко не так безоблачна, как рисуете умозрительную картину Вы, и приблизительно не ведающий, о чем, собственно, идет разговор. Да ну Вас Малыш - Bы это бросьте!!! А как же банки с их бесплатными аккаунтами и патенты с электронной библиотекой - ЭТО ЖЕ ВСЁ ТАК ПОХОЖЕ НА АРХИВНЫЕ ДОКУМЕНТЫ !!!

S.N.Morozoff: А вот между прочим, коллеги. Особо желающие отработать простой перевод сканов (печатных сканов, замечу!) в текст имеются? А то есть работенка... У меня, видите ли, сайтик есть... На нем сейчас выложено 706 газет разной степени комплектности (в среднем - 3,5 полосы на газету). Для 219 газет текст худо-бедно есть. А вот для остальных 487 есть только сканы полос. Чтобы поиск по сайту нормально работал нужно распознать эти сканы (скачав с сайта DjVu образ); проверить текст на наличие ошибок распознавания; отсечь лишние пробелы, мягкие переносы, выделить заголовки жирным, снабдить каждый файл заголовком (газета, номер, число, номер полосы) и прислать мне. Ну хотя бы как вордовский файл. Это будет для всех желающих пример конкретной работы с конкретным архивом. Замечу в скобках, что качество печати в газетах отличается от качетсва текста рассматриваемого архива. В лучшую сторону. Так что?

vlad: S.N.Morozoff пишет: А вот для остальных 487 есть только сканы полос. Чтобы поиск по сайту нормально работал нужно распознать эти сканы (скачав с сайта DjVu образ); проверить текст на наличие ошибок распознавания; отсечь лишние пробелы, мягкие переносы, выделить заголовки Сергей, ета..DjVu она 'pipe' поддерживает ?

S.N.Morozoff: vlad пишет: DjVu она 'pipe' поддерживает Что такое 'pipe'?

vlad: режим поточной обработки задач- сильно автоматизирует процесс... иначе ручками каждий скан. Я вот недавно с 'pipe пробовал под Win - не идет, а вообше ето Unix/Linux k-da.

S.N.Morozoff: vlad пишет: режим поточной обработки задач- сильно автоматизирует процесс... иначе ручками каждий скан. Я вот недавно с 'pipe пробовал под Win - не идет, а вообше ето Unix/Linux k-da. Не пробовал. Значит, DjVu можно в bmp перевести с заданным разрешением (исходно было 300 dpi - этого для распознавания хватит). А с ним уже плясать. Хотя сомневаюсь я, что поточный метод тут получится.

assaur: S.N.Morozoff пишет: Так что? Ну и шуточки у Вас, Сергей Морозов! За один день сколько получается вычитать? У меня максимум 100 страниц (книжных). Хотя vlad уже откликнулся. Наш человек!

vlad: assaur пишет: Хотя vlad уже откликнулся. Наш человек! так я только при условии автоматизации. я посмотрю в выходные что можно сделать с етой DjVu , хотя под Linux должны быть и другие тулы. S.N.Morozoff пишет: Хотя сомневаюсь я, что поточный метод тут получится. вы просто наклепаете сражу столько .bmp, сколько сканов, но потом уже каждий смотреть надо глазками.

VIR: Dp пишет: Очень хороший формат, только страничка 600dpi в цвете будет весить десятки мегабайт. Посмотрел у себя на диске размер патентных страничек. Они порядка 100 килобайт. Но не цветные. Кажется, цветные рисунки низзя в патенте.

VIR: S.N.Morozoff пишет: это будет неплохая трата траффика впустую. Я не понимаю, что такое трата траффика. И почему бы его не тратить. Так же не понятно, почему за этот траффик надо платить. S.N.Morozoff пишет: Кучу времени экономит совсем не это. Экономия наступит тогда, когда посылающий запрос хорошо представляет себе, как велось делопроизводство в указанный период времени, представляет - что, где и как искать. Разумеется. В любом деле нужны знания и опыт.

Aleksey: VIR пишет: Я не понимаю, что такое трата траффика. И почему бы его не тратить. Так же не понятно, почему за этот траффик надо платить. Лет так 10 назад в штатах платили за трафик Сейчас в России за него платят не многие т.к. безлимитное подсоединение уже используетя довольно часто А Вы мил друг опять так сказать ВЫЁЖИВАЕТЕСЬ. Вам же написали: Малыш пишет: VIR, попробуйте свыкнуться с одной несложной, в общем-то, мыслью: не надо считать себя просвещенным белым миссионером в краю диких папуасов, не знающих огня и не ведающих истинной веры.

Dp: VIR пишет: Посмотрел у себя на диске размер патентных страничек. Они порядка 100 килобайт. Но не цветные. Кажется, цветные рисунки низзя в патенте. Эти тиффы наверное черно-белые с компрессией (пожатые) и с разрешением 300dpi и с уменьшенным размером документа до примерно 600х800 пикселей. А исходники в том же, но не сжатом, тиффе (оригинальный размер, цвет, 600dpi) будут весить 20-40Мб.

VIR: Малыш пишет: Юзверь открывает поисковую форму и набирает в ней слова: "Г.К.Жуков" - "Найти". Разъясните мне, пожалуйста, как понять, хочет пользователь найти упоминания Георгия Константиновича Жукова - маршала или Григория Клементьевича Жукова, сержанта 43-й Краснознаменной стрелковой дивизии? Это я уже обьяснял. Если просто Жуков во всем тексте - это одно. Если Жуков в подписи (и чего - приказа, донесения, и т.п.) - это другое. Если те же донесения Жукову (т.е. Жуков здесь адресат) - то уже третье. Вот если я в патентной поисковой системе забью "Малыш" и скажу искать во всем тексте, то система выдаст не только патенты Малыша, но еще и все патенты, в которых есть ссылки на патенты или статьи Малыша. А если, наученный горьким опытом, я скажу системе что "Малыш" нужно искать только в инвенторах, то получу все патенты Малыша. И даже больше, поскольку Малышей может быть много и разных. А если добавлю еще и имя эсайни, если знаю на какую компанию Малыш работает, или мне нужны только его патенты сделанные для этой компании, то отсею всех ненужных мне Малышей. Еще лучше если я знаю адрес Малыша. Тогда найду и те патенты, в которых нет эсайни. Но это то, что поисковая ситема предлагает как "quick search". А есть еще и "advanced". Но я его даже ни разу не открывал. Вы разве Гуглом примерно не так же пользуетесь? Гугл тоже на одно слово выдаст сотни тысяч "документов". И поиск нужно сужать. Малыш пишет: Если люди, работавшие с документами, говорят о том, что такие трудности есть - значит, ситуация, по меньшей мере, далеко не так безоблачна, как рисуете умозрительную картину Вы, и приблизительно не ведающий, о чем, собственно, идет разговор. Я и не утверждал что трудности исчезнут. Утверждалось что их станет меньше по сравнению с тем что есть сейчас без поиска в Инете.

VIR: Aleksey пишет: Лет так 10 назад в штатах платили за трафик Очень может быть. Но я никогда не платил - меня в те черные годы было подключение через универ

VIR: Dp пишет: Эти тиффы наверное черно-белые с компрессией (пожатые) и с разрешением 300dpi и с уменьшенным размером документа до примерно 600х800 пикселей Dinesions: 2560 x 3300 Что это такое я не знаю

Dp: VIR пишет: Dinesions: 2560 x 3300 Что это такое я не знаю Dimensions это размер и есть. Нормальный, оригинальный размер. Ну значит хорошо пожатый тифф. 100кб как то мало... если только там мало текста и много белого поля.

S.N.Morozoff: assaur пишет: Ну и шуточки у Вас, Сергей Морозов! Это не шуточки. Во-первых, сие действительно было бы неплохо сделать. Я и сам могу, конечно, но тут видите как совпало - народ обсуждает насколько сложно оцифровать. Я насчет сканирования не предлагаю, в текст переведите то, что уже отсканено, попробуете почем фунт лиха так ли это легко и просто. И я повторюсь: газетный текст - это семечки в сравнении с тем, что лежит в ЦАМО. За один день сколько получается вычитать? У меня максимум 100 страниц (книжных). Блин, я уж не помню. А потом - это сильно зависит от скана. А скан, кстати, впрямую зависит от качества оригинала. Я вот сейчас, посмотрев на оригинал, сразу могу сказать - много будет проблем с распознаванием или не очень. В любом случае от книжного распознавания процесс отличается не в лучшую сторону в связи с изначальным качеством печати - ошибок больше. Хотя vlad уже откликнулся. Наш человек! Так это собственно, был от меня такой наброс. На вентилятор. Типа проверки на вшивость. Я не предлагаю оцифровать ЦАМО, распознайте то, что уже даже выложено. Всего лишь. И вот смотрите, Петр, что характерно: vlad, который в дискуссии участия практически не принимал, по крайней мере заинтересовался. А вот остальных, которые про оцифровку нам тут говорят и показывают, чтой-то не видать... К чему бы это?.. vlad пишет: вы просто наклепаете сражу столько .bmp, сколько сканов, но потом уже каждий смотреть надо глазками. Хихикс... Так я пробовал. Fine Reader при разметке областей распознавания такие корки мочил, что я в итоге плюнул и стал размечать ручками. Это Вам не книжка, да... VIR пишет: Я не понимаю, что такое трата траффика. И почему бы его не тратить. Так же не понятно, почему за этот траффик надо платить. Aleksey пишет: Лет так 10 назад в штатах платили за трафик Сейчас в России за него платят не многие т.к. безлимитное подсоединение уже используетя довольно часто На одном конце (пользовательском) да. А на другом? Ведь каналы-то сервера используются, траффик с него идет. Хотя... Я может не понимаю чего? Что, в Сети переливается хренова гора информации и никто за это не платит что ли? Коммунизм настал?

S.N.Morozoff: Dp пишет: Dimensions это размер и есть. Нормальный, оригинальный размер. Ну значит хорошо пожатый тифф. 100кб как то мало... если только там мало текста и много белого поля. dpi сколько? VIR, ну-ка выложите какой-нибудь из них, посмотрим.

Dp: S.N.Morozoff пишет: Я и сам могу, конечно, но тут видите как совпало - народ обсуждает насколько сложно оцифровать. Я насчет сканирования не предлагаю, в текст переведите то, что уже отсканено, попробуете почем фунт лиха так ли это легко и просто. S.N.Morozoff пишет: А вот остальных, которые про оцифровку нам тут говорят и показывают, чтой-то не видать... На сайте katynbooks.narod.ru лежит то что я сканил (сканер самый обычный за 40$ по-моему куплен). Климковского - отсканировать, распознать книжку и перевести в html (регулярные выражения и Notepad++ рулят) ушло 2 вечера. На "год кризиса" (оба тома) ушла рабочая неделя (то есть тоже вечерами). Тут проблема в моей ленивости - а то мог бы еще много чего полезного насканить. Но весь этот хаотичный труд энтузазистов не даст того что хотелось бы иметь, а в итоге хотелось бы чтобы каждый человек имел доступ (как говорится не выходя из дома, или даже выходя - с КПК и т.п.) ко всему тому что хранится в наших библиотеках, ко всем миллионам "единицам хранения" - книгам, журналам, годовым подшивкам газет, архивам и т.п. Задача эта вполне выполнима и по карману государству.

assaur: S.N.Morozoff пишет: Я не предлагаю оцифровать ЦАМО, распознайте то, что уже даже выложено. Всего лишь. Ну, какой-нибудь справочник по мясо-молочной промышленности я бы не стал распознавать. Тут очень важно чтобы материал был человеку интересен. У меня, например, оцифрован "Огонек" за 1943-44 годы. Я бы себе потом не простил, если бы этого не сделал. Так и сидело бы в голове, как забитый гвоздь. Но распознавать я его точно не буду. Вот его бы в хорошие руки отдать! Воробей, было дело, зажглась, а сейчас даже на форум не заходит. Одна надежда на Милитеру, когда ее в базу загонят. В принципе это уже сделано, осталось к Машкову на сервер положить.



полная версия страницы