распознавание pdf в odt

Автор 4_3, 25 сентября 2023, 00:07

0 Пользователи и 1 гость просматривают эту тему.

4_3

часто сталкиваюсь с тем, что приходят файлы pdf, которые я открываю в ворде и могу редактировать как обычный вордовский файл, что намного удобнее чем редактирование pdf в акробате, тк текстовые блоки уже автоматически форматируются и ничего не "съезжает"..
очень хочется этого достичь во writer.. может, кто подскажет, как это сделать?

gabix

Подсказать что? Как файл открыть? Через меню Файл > Открыть, например.

mikekaganski

В общем, это невозможно в LibreOffice / AOO. Мы не импортируем из PDF с эвристиками для восстановления текста (то есть все текстовые куски мы импортируем в лучшем случае построчно, в виде текстовых рамок).

Кстати, мы обсуждали это на конференции (см. презентацию Эйала, когда её выложат). Да, было бы неплохо изменить импорт в Writer.
С уважением,
Михаил Каганский

gabix

А гибридный PDF/DOCX (а речь, вероятно, о нём) разве не откроется? Под рукой просто нет попробовать.

mikekaganski

Цитата: gabix от 25 сентября 2023, 10:35гибридный PDF/DOCX (а речь, вероятно, о нём)

Речь точно не о нём. В вопросе обсуждается то, что умеет делать с PDF-файлами Word; там нет никакого гибридного формата, а то, что там происходит - умный импорт с восстановлением текста.
С уважением,
Михаил Каганский

gabix

А я совсем не уверен, что не о гибридах речь, читая:
Цитироватьприходят файлы pdf, которые я открываю в ворде и могу редактировать как обычный вордовский файл

Это допускает разное толкование.

mikekaganski

#6
Достаточно просто знать, что у Microsoft вообще нет гибридного формата, и наш гибрид PDF+ODF они не поддерживают, и уверенность появится. А если Вы ещё попробуете на реальном обычном PDF, то Вы увидите, как они это делают (не идеально, с небольшими изменениями из-за преобразования).

Обратите внимание на то, что в PDF нет короткой предпоследней строки, которая есть в Word после импорта.
С уважением,
Михаил Каганский

4_3

посмотрите пожалуйста на этот файл.
как его сделать odt для дальнейшего редактирования?

4_3

вот файл, в котором линии заменены на таблицы и нет ни одного элемента, нуждающегося в распознавании, как рисунок. (таблицы съехали чуть, но это вопрос в другую ветку уже)
такое можно в odt сохранить?

4_3

дальше интересней: решил вручную набрать..
сделал 2 колонки, вставил разрыв колонки. скопировал текс из источника и вставил..
получил такое:
как так получается, что текст вставился куда угодно, но не в выбранную колонку?

caspar

По-моему у Вас 2 варианта:
1) Заполнять журнал, редактируя файл .odg , результат можно экспортировать в .pdf. Я обычно выбираю такой вариант, но он подходит только для простых документов и небольшой правки. Кроме того, в этом варианте катастрофически ломается форматирование абзацев с выравниванием по ширине.
2) Если Вы решили копировать текст в документ .odt, при вставке надо выбирать опцию "Только текст", а форматирование (шрифт и его размер, выравнивание, отступы, межстрочные интервалы и т.п) добавить потом, вручную или с помощью стилей.

McAaron

Цитата: 4_3 от 28 сентября 2023, 12:15посмотрите пожалуйста на этот файл.
как его сделать odt для дальнейшего редактирования?
Просто с нуля набрать. Работы там от силы час.

4_3

смешно. у меня таких много.. и не все на 3 странички.. есть и 50.. я конечно могу парсером поработать, то это .. не идеально =)

McAaron

Загружать pdf в вордпроцессор -- совершенно бессмысленный и вредный функционал. pdf создан как формат обмена документами, предназначенный для просмотра и/или печати, а не для редактирования. Если у вас нет исходника, то нет и прав его редактировать.