Модуль Import HTML

B.X's picture

Итак, вы собираетесь перейти на CMS c обычного HTML-сайта? Если бы у меня кто-то такое спросил, я бы удивился. Неужели, подумал бы я, кто-то ещё создаёт свои сайты с помощью обычного HTML? И тем не менее, это так. Такие люди есть. Но даже если бы их не было, согласитесь, что иногда нужно добавить страницу или несколько страниц в Друпал. Обычных html-страниц, на которых уже есть вся информация и которую не хочется ни редактировать, ни превращать в текст, ни тем более добавлять по одной...

Совсем недавно, разговора о том, как это сделать вообще бы не было, поскольку отсутствовал модуль ответственный за импорт html-страниц, но сейчас он появился, а так как настройка его - это не совсем простая задача, то я попробую объяснить, что именно нужно сделать, чтобы этот модуль заработал. Нормально (с поддержкой всех функций) мне его заставить работать не удалось, но главную свою задачу, а именно, импорт html-файлов он выполняет, а мне больше ничего и не надо было. Самое главное, это конечно, сам модуль Import HTML. Скачайте и установите его обычным образом. Все установки лучше делать на локальном сервере. Рассмотрим настройку этого модуля на примере локального сервера для MS Windows Денвер.

импортимпорт

Первым делом, установите самый последний PHP 4 в Денвере (скачайте, он установит его туда, где у вас Денвер). Потом найдите в WebServersusrlocalphp (установочной папки Денвера) файл php.ini и раскомментируйте (уберите двоеточие) перед двумя строчками, перед extension=php_domxml.dll и extension=php_xslt.dll после этого, сохраните файл и перезапустите сервер. Далее, вам нужен Tidy. Вот отсюда скачайте и распакуйте этот файл в папку WebServersusrlocalbin.

php.iniphp.ini

Когда всё будет работать, просто поиграйтесь с настройками. Посмотрите, что получится, если включить или выключить ту или иную опцию. Подобавляйте контент, что не нужно удалите. Посмотрите как всё это работает. Для модуля Import_html также нужен модуль Path (входит в стандартную поставку, просто включите его на странице модулей). Вот как я всё поставил:

настройки импортанастройки импорта

##########################################################
На странице Import HTML Site:

Site Root on the Server:
C:/WINDOWS/WebServers/home/localhost/www/drupal5/files/docs/
Смотря где у вас находится Денвер, если на C:/WebServers, то лишнее уберите...

Subsection to list:
Здесь оставил пусто как и было...

Зато, например, другая важная опция
Add each page to menu
requires menu.module(installed)

Работает, её нужно отключить, если вы не хотите, чтобы все материалы появились в меню (потом можно с ума сойти, чтобы тысячи материалов из одного меню перевести в другое), легче потом из таксономии создать новое меню и всё... (смотрите на скриншоте, там видно, что в меню появилось много файлов) так же, у меня не сработали сокращённые версии, он их почему-то не добавляет, но после того, как вы добавите все файлы на главную (смотрите ниже по тексту, я там написал об этом), то все сокращённые версии будут созданы автоматически, если вначале файла у вас много хтмл-тегов, то необходимо увеличить количество символов в сокращённой версии, так как хтмл-символы (хотя они и не показываются, тоже считаются)... настройки этого параметра здесь /admin/content/node-settings.

##########################################################
На странице Import HTML Settings:

в Import and Content Analysis Options у меня были такие настройки:

HTML Translation Template:
html2simplehtml.xsl (как было)

Content Tag ID:
main (как было)

Node Type for new pages:
Story

Default Input Filter:
Filtered Html (если ссылки в файлах есть, то они останутся, а всё лишнее уберётся, иначе придётся форматировать файлы отдельно, убирать лишние теги и тд, с этой настрой этого делать не надо)...

Default Document:
index.htm (как было)

File Exclusion Pattern:
(оставил как есть)

Remove table markup
Поставил галку, удаляет таблицы, если у вас там таблиц много, то тогда ставить не надо...

---------------------------------------
---------------------------------------
в Replication Options
Выключил все галки, они там, по моему, ничего не делают, но можете попробовать...

Extra File Storage Path:
files/imported/ (как было)
Надо и создать эту папку тоже, по этому пути, то есть в папке files...

Import Site Prefix:
Очистил эту опцию, ничего здесь не указывал, а то что было убрал...

У меня не заработали, например:
Imported nodes are Published?
Sets the node status. Check to have nodes published.
Imported Nodes are Promoted to front page?
Sets whether or not imported nodes are promoted to the front page.

Добавляют страницы сразу на главную и публикуют их. Не знаю почему не работает, но это не так важно. После добавления, пройдите по адресу admin/content/node (или Управление Сайтом/Содержание) и поставьте галки на всей странице и выберите Поместить на главную (одновременно и опубликуется).

User to create nodes as:
Это по умолчанию, под каким пользователем публикуются материалы, я оставил админом, а вы сами смотрите, если нужно можно публиковать под разными пользователями (для этого надо их добавить в /admin/user/user )

--------------------------------------------
---------------------------------------------
Advanced Import Tuning
Duplicate Handling:
owerwrite/merge (как было)
Эта опция позволяет или перезаписывать при добавлении такого же файла или не перезаписывать.

No Title:
set to placeholder value
Поставил это, иначе он добавляет туда лишние значения, иногда не нужно...

##########################################################
На странице Static HTML Settings:

Static file location:
files/docs/
Вообще, должно у вас быть в папке files ещё две папки, это docs (где вы будете складывать все файлы (они потом будут показаны по ссылке archive в каждом добавленном документе, поэтому удалять их отсюда не нужно) и вторая папка - это imported, туда будут добавляться другие файлы (перезаписываться из папки docs, но это будут всякие графические файлы и тд.)...

Synchronization Behaviour:
Я поставил Write on save, Read Only if file time has changed

Node Types to apply to:
Story

Show link to archive file on page
Не работает... не включай, или включай, всё равно ссылку показывает...

Use import HTML processing
Поставил сюда галку...

###################################################################

список документовсписок документов

Да, кстати, вам нужно все файлы перекодировать в utf-8, это единственная кодировка, которую Друпал поддерживает. Возьмите редактор файлов TEA - он единственный перекодировывает (который мне известен) файлы массово. Перекодировывать там просто: Файл >> Кодировки >> Перекодировать массово. Также существует и Линукс-версия. Но с Линуксом вообще всё намного проще.

Вот собственно и всё. Вроде обо всём упомянул. Посмотрите скриншоты, быть может вам станет более наглядны некоторые моменты в настройке (на скриншотах не всегда те настройки, которые я указал в окончательных настройках выше). Да и ещё про комментарии, они почему-то остаются выключенными, несмотря на то, что для Story они включены по умолчанию. Поэтому если вам будут нужны, то придётся для каждого документа их включить (на странице документа вкладка Редактировать и внизу после формата ввода, есть меню Установки комментариев)...