Импорт htm-страниц

Автор ape, 28 октября 2010, 23:15

0 Пользователи и 1 гость просматривают эту тему.

ape

ОС - Windows XP 64-bit Edition SP2 ENU + MUI_RU (патч замены СР-1252 на СР-1251 выполнен);
Браузеры (сохранение страниц в СР-1251) - Opera_ver.10.63, IE-8;
ООо - от 2.4.х до 3.3.0rs2 (Go, Infra, Libre, Sun-Oracle), настройки - по-умолчанию.
---------------------
Почему по разному открываются сохранённые htm-страницы: то так (0.png), то этак(1.png).
Программой ListEgit и в режиме Просмотр, и в режиме Редактирование кириллица отображается корректно.

Рыбка Рио

Наверное, в htm файле не указана (либо указана неправильно) его кодировка (?). Нужно вначале файла посмотреть строчку типа <META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=koi8-r"> и сравнить с той кодировкой, которую показывает у вас браузер (в Firefox - меню Вид/Кодировка). Браузер может и правильно показывать такие файлы потому что смотрит не только в то что написано в файле про его кодировку, но и в заголовки http.
ubuntu 12.04 + LibO3.6.0

ape

#2
В обоих случаях указан тип кодировки windows-1251. Обратите внимание - заголовок второго документа проходит, а содержание - нет. Бывало и наоборот: заголовок из кракозябр, а содержимое - в норме.

prof-alex

Без самих html трудно сказать что к чему.

«Студентов, ранее изучавших Бейсик, практически невозможно обучить хорошему программированию. Как потенциальные программисты они подверглись необратимой умственной деградации» Э. Дейкстра

ape

#4
Думаю, дело не в ***.htm, а в кодах ООо: эту "болезнь" я помню ещё с ООо-1.1.3; начиная с версии 2.0.0, sweb.exe просто исчез из меню Программы; IBM, несмотря на наличие в пакете Симфонии браузера, поддержку html-страниц Writerом просто исключило...
Я к тому, что RuООо может стоило бы пойти по этому пути - меньше недовольного бурчания, а надеяться на решение в Оракл нам не приходится - с ENU проблем нет, это особенности национальной кодировки.

prof-alex

Там проблем и ENU много. Для того чтобы ошибки исправлять, их нужно находить. А для этого нужны не только скриншоты с кракозябрами, но и исходные данные.

«Студентов, ранее изучавших Бейсик, практически невозможно обучить хорошему программированию. Как потенциальные программисты они подверглись необратимой умственной деградации» Э. Дейкстра

ape

#6
Цитата: prof-alex от 29 октября 2010, 22:41Для того чтобы ошибки исправлять, их нужно находить. А для этого нужны не только скриншоты с кракозябрами, но и исходные данные.
Исходные данные: LibO_3.3.0_Win_x86_portable.zip (html-страница этого сайта, прилагаю); Windows XP 64-bit ENU + MUI_RU; LibO-3.3.0rs1; OOo-3.3.0rs7. Скриншоты с разной настройкой CodePage для HTML и вариант другого текстового процессора прилагаю.

Рыбка Рио

У меня этот файл OOo/LibO вообще не открывает - намертво зависает.
Bug 32258 – Unable to open htm file (attached) - deadlock
ubuntu 12.04 + LibO3.6.0

ape

Надеюсь, в текстовом редакторе и браузере посмотрели? Кодировка - utf-8.

VlhOwn

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8;charset=utf-8" />

Уберите выделенное красным, и будет Вам счастье!

ape

Счастье наступило... Вопрос о том, что смена кодировки в Параметры - Загрузка/сохранение - Совместимость с HTML с CP-1251 на UTF-8 никак не влияет на открытие веб-страниц, остался.

VlhOwn

Можно для недалеких чуть более внятно? Что на что и как должно влиять?

ape

#12
Извините недалёкого: "перечитался" - в диалоге говорится о настройке экспорта.  :(
Однако, есть неприятные "мелочи": кодировку 1251 необходимо указывать как "windows-1251":
Цитировать<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head>
   <meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />
, т.е. в "транскрипции" диалога Параметры - Загрузка/сохранение - Совместимость с HTML.
Цитировать<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head>
   <meta http-equiv="Content-Type" content="text/html; charset=cp-1251" />
Если указать "cp(CP)-1251", то результат - кракозябры.

Рыбка Рио

Кстати, в LibO уже исправили это. (Bug 32258 – Unable to open htm file (attached) - deadlock)

А насчёт того, что настройка кодировки (в меню Сервис/Параметры/Загрузка-Сохранение/Совместимость с HTML) влияет на импорт - это моя ошибка. Эта настройка, значит, влияет только на экспорт.
ubuntu 12.04 + LibO3.6.0

ape

#14
В LibO-3.3.0rs1 баг не исправлен. Есть ещё момент - экспорт в *.odt  дал такой результат (не знаю как описать - см. Масштаб, Формат страницы и линейки)...