Не качаются словарные статьи

Author Message
Alex 08/16/2011 02:58 pm
Здравствуйте, Олег!

Пытаюсь скачать все словарные статьи с данного сайта:

http://ordnet.dk/ddo/dquery?query=a la carte

Видимо именно адрес "http://ordnet.dk/ddo/dquery?query=" указывает на каждую отдельную статью, однако если попытаться использоваться адресом http://ordnet.dk/ddo/dquery?query={:a..z}, то он ничего не дает. В чем может быть проблема и как мне скачать ВСЕ статьи с этого сайта?

ЗЫ: Надо еще учесть один момент; в некоторых статьях присутствуют три датские буквы "?", "o", "a", а также цифры, например http://ordnet.dk/ddo/ordbog?query=12-%C3%A5rig ("12-летний"). Как можно это прописать в адрес, чтобы и те статьи скачались?

Заранее спасибо за любую помощь!

Александр, Москва
Alex 08/16/2011 03:03 pm
Вроде ошибся в адресах:

http://ordnet.dk/ddo/ordbog?query=

Кажется правильный адрес, с которого открываются все статьи.

Но видимо еще и с http://ordnet.dk/ddo/dquery?query= открываются нормально..
Короче запутался уже!)
Oleg Chernavin 08/16/2011 03:33 pm
Я думаю, лучше начать с

http://ordnet.dk/ddo/dquery?query={:a..z}
http://ordnet.dk/ddo/dquery?query={:0..9}

Уровень - неограниченный, фильтры URL - имена файлов - включенный список:

ordbog?aselect=*&query=

Так получится скачать все статьи - из алфавитного списка ссылки будут браться.

Best regards,
Oleg Chernavin
MP Staff
Alex 08/16/2011 05:03 pm
Спасибо!

Только вот последнее не совсем понял..

"ordbog?aselect=*&query=" из чего состоит, как эту строку понять? и куда именно ее занести? Вставил в URL Filters -> Filename -> Keyword -> Add, галочку поставить возле "Load files only with the starting filename"? Все равно не ловит ничего..

Так программа делает только запросы типа http://ordnet.dk/ddo/dquery?query=5, http://ordnet.dk/ddo/dquery?query=9, http://ordnet.dk/ddo/dquery?query=3, http://ordnet.dk/ddo/dquery?query=k, http://ordnet.dk/ddo/dquery?query=v, ит.д..
Oleg Chernavin 08/16/2011 06:15 pm
Нет, эту галку не надо ставить. А занести надо в список разрешенных имен файлов. В этой секции два списка - для запрета и разрешения.

Если зайти на страницу http://ordnet.dk/ddo/dquery?query=k, то справа будет список Alfabetisk liste. Ссылки в нем имеют вид:
http://ordnet.dk/ddo/ordbog?aselect=jodinde&query=k

Соответственно маска должна разрешать только адреса, начинающиеся на ordbog?aselect= и дальше продолжающиеся &query=. Так и получается ordbog?aselect=*&query=
Alex 08/17/2011 03:58 am
Олег, спасибо большое! Заработало! Статьи теперь потихоньку качаются одни за одними. А закачку не надо будет временно приостанавливать, чтобы ее типа не сочли атакой на сайт? Данных ведь там немало, насколько могу подсчитать, около 100 000 статей..
И последний вопросик: умеет ли offline explorer спарсить информацию со страниц так, чтобы выдрались только словарные статьи для дальнейшей обработки?

Спасибо еще раз за помощь!
Oleg Chernavin 08/17/2011 05:45 am
А как понять "спарсить" и "выдрались"?
Alex 08/17/2011 06:20 am
В смысле, хотелось бы вытащить со страниц именно словарные статьи, больше ничего. Дальше эти статьи обрабатывать в текстовом редакторе или excel.
Oleg Chernavin 08/17/2011 07:07 am
Тут проблема. С одной стороны, в Offline Explorer Pro есть команды:

SkipParsingBefore=<body
SkipParsingAfter=</html>

Они позволяют вырезать кусок из середины страницы и работать с ним. Но тогда программа не сможет следовать ссылкам в боковом блоке, если его отрезать (он к основной статье не относится).