Извлечение текста из врезок и копирование его в новый документ

Автор kompilainenn, 7 октября 2016, 14:00

0 Пользователи и 1 гость просматривают эту тему.

kompilainenn

Есть документ (http://www.documentfoundation.org/statutes.pdf - вот этот), открытый в Writer и сохраненный в формате ODT (см.вложение). В нём КАЖДАЯ строка текста - это ОТДЕЛЬНАЯ врезка. Я не знаю почему так.
Вопрос: как в автоматическом режиме извлечь весь текст из врезок, врезки удалить, а текст вставить, как просто текст, можно и без форматирования?

Есть вариант конечно просто распознать исходный PDF, однако хотелось бы решить проблему силами LibreOffice
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

rami

Цитата: kompilainenn от  7 октября 2016, 12:00Вопрос: как в автоматическом режиме извлечь весь текст из врезок, врезки удалить, а текст вставить, как просто текст, можно и без форматирования?
Это не врезки, а фигуры "прямоугольники", но это в принципе не важно. Извлечь текст из этих фигур очень просто (макросом), но они идут не по порядку, а вразброс (за первой строкой идёт первая строка последнего листа, на третьем месте строка из середины документа и т.д.). Может и есть какой-то порядок фигур, но я его на счёт "раз" не понял.

Проще скопировать текст из PDF и вставить в Либре.

kompilainenn

Цитата: rami от  7 октября 2016, 13:43Проще скопировать текст из PDF и вставить в Либре.
в общем силами Либры такой вот косяк не правится? ок
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

rami

Цитата: kompilainenn от  7 октября 2016, 14:05в общем силами Либры такой вот косяк не правится? ок
Если бы фигуры с текстом шли не вразброс, а по порядку, то проще простого.

kompilainenn

Цитата: rami от  7 октября 2016, 14:16Если бы фигуры с текстом шли не вразброс, а по порядку, то проще простого.
понять бы еще, как они такой документ сваяли? Может это экспорт из какой-то системы документооборота?
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

McAaron

Цитата: kompilainenn от  7 октября 2016, 14:00
Есть документ (http://www.documentfoundation.org/statutes.pdf - вот этот), открытый в Writer и сохраненный в формате ODT (см.вложение).
А как Вы его открыли во Writer? У меня этот pdf открывается в Draw, даже если я его запускаю из комстроки

$ libreoffice5.1 --writer statutes.pdf


McAaron

Цитата: kompilainenn от  7 октября 2016, 17:48
понять бы еще, как они такой документ сваяли? Может это экспорт из какой-то системы документооборота?

rami

Цитата: kompilainenn от  7 октября 2016, 15:48понять бы еще, как они такой документ сваяли? Может это экспорт из какой-то системы документооборота?
Почему "они", а не ты? Это ты скачал PDF с сайта, открыл в Либре, конвертировал в .odt, а теперь валишь на "них". Кстати, как ты его довёл до такой кондиции?

McAaron

Провел небольшой эксперимент с открытием нескольких pdf'ов, которые случайно попались под руку.
Выяснилось, что любой pdf, не содержащий внутри odf, открывается в Draw, при этом каждое предложение располагается в отдельной строке, которая не переламывается по границе области текста страницы.

McAaron


kompilainenn

Цитата: rami от  7 октября 2016, 16:14Почему "они", а не ты? Это ты скачал PDF с сайта, открыл в Либре, конвертировал в .odt, а теперь валишь на "них". Кстати, как ты его довёл до такой кондиции?
а как он открылся текстом в Writer если не содержал внутри себя odt? O_o
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

kompilainenn

Цитата: McAaron от  7 октября 2016, 16:01А как Вы его открыли во Writer? У меня этот pdf открывается в Draw, даже если я его запускаю из комстроки
если просто открыть его в ЛО то да, открывается в Draw и только первая страница. Таки да, каждая строка в отдельной фигуре (не важно уже врезка это или прямоугольник с текстом).
А если открыть Writer и вызвать меню Файл-Открыть, а в диалоге Открыть файл выбрять явно тип файла Документ PDF (Writer), то этот файл открывается в Writer, все страницы доступны, однако структура документа остается такой же восхитительной, каждая строка сама по себе в отдельной фигуре
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

McAaron

Цитата: kompilainenn от  7 октября 2016, 19:13
Цитата: McAaron от  7 октября 2016, 16:01А как Вы его открыли во Writer? У меня этот pdf открывается в Draw, даже если я его запускаю из комстроки
если просто открыть его в ЛО то да, открывается в Draw и только первая страница. Таки да, каждая строка в отдельной фигуре (не важно уже врезка это или прямоугольник с текстом).
А если открыть Writer и вызвать меню Файл-Открыть, а в диалоге Открыть файл выбрять явно тип файла Документ PDF (Writer), то этот файл открывается в Writer, все страницы доступны, однако структура документа остается такой же восхитительной, каждая строка сама по себе в отдельной фигуре
Век живи, как говорится, -- век учись. Способом "File-Open" из программы практически не пользуюсь -- обычно текущий каталог у программ где-то у черта на куличках и добраться до нужного файла нужно поработать запястьем будь здоров. В то же время или mc/tc или файл-менеджер обычно всегда в нужном месте, либо есть закладка. Поэтому привык стартовать от документа, а не от программы. Обычно выбираешь документ, кликаешь/давишь на него и вперед.

kompilainenn

Цитата: McAaron от 10 октября 2016, 10:01Обычно выбираешь документ, кликаешь/давишь на него и вперед.
Я взял свой гибридный документ ПДФ, созданный во Writer (со встроенным в него ОДТ), и просто открыл его в Либре -> он сам по себе открылся в Writer, как и было задумано

Так что мутный этот файл у разработчиков=)
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Sparkster

Я столкнулся с похожей проблемой
Цитата: kompilainenn от  7 октября 2016, 16:05Извлечь текст из этих фигур очень просто (макросом)
А каким макросом можно извлечь текст из врезок, если они идут по порядку?