Пытаюсь скачать все словарные статьи с данного сайта:
http://ordnet.dk/ddo/dquery?query=a la carte
Видимо именно адрес "http://ordnet.dk/ddo/dquery?query=" указывает на каждую отдельную статью, однако если попытаться использоваться адресом http://ordnet.dk/ddo/dquery?query={:a..z}, то он ничего не дает. В чем может быть проблема и как мне скачать ВСЕ статьи с этого сайта?
ЗЫ: Надо еще учесть один момент; в некоторых статьях присутствуют три датские буквы "?", "o", "a", а также цифры, например http://ordnet.dk/ddo/ordbog?query=12-%C3%A5rig ("12-летний"). Как можно это прописать в адрес, чтобы и те статьи скачались?
Заранее спасибо за любую помощь!
Александр, Москва
http://ordnet.dk/ddo/ordbog?query=
Кажется правильный адрес, с которого открываются все статьи.
Но видимо еще и с http://ordnet.dk/ddo/dquery?query= открываются нормально..
Короче запутался уже!)
http://ordnet.dk/ddo/dquery?query={:a..z}
http://ordnet.dk/ddo/dquery?query={:0..9}
Уровень - неограниченный, фильтры URL - имена файлов - включенный список:
ordbog?aselect=*&query=
Так получится скачать все статьи - из алфавитного списка ссылки будут браться.
Best regards,
Oleg Chernavin
MP Staff
Только вот последнее не совсем понял..
"ordbog?aselect=*&query=" из чего состоит, как эту строку понять? и куда именно ее занести? Вставил в URL Filters -> Filename -> Keyword -> Add, галочку поставить возле "Load files only with the starting filename"? Все равно не ловит ничего..
Так программа делает только запросы типа http://ordnet.dk/ddo/dquery?query=5, http://ordnet.dk/ddo/dquery?query=9, http://ordnet.dk/ddo/dquery?query=3, http://ordnet.dk/ddo/dquery?query=k, http://ordnet.dk/ddo/dquery?query=v, ит.д..
Если зайти на страницу http://ordnet.dk/ddo/dquery?query=k, то справа будет список Alfabetisk liste. Ссылки в нем имеют вид:
http://ordnet.dk/ddo/ordbog?aselect=jodinde&query=k
Соответственно маска должна разрешать только адреса, начинающиеся на ordbog?aselect= и дальше продолжающиеся &query=. Так и получается ordbog?aselect=*&query=
И последний вопросик: умеет ли offline explorer спарсить информацию со страниц так, чтобы выдрались только словарные статьи для дальнейшей обработки?
Спасибо еще раз за помощь!
SkipParsingBefore=<body
SkipParsingAfter=</html>
Они позволяют вырезать кусок из середины страницы и работать с ним. Но тогда программа не сможет следовать ссылкам в боковом блоке, если его отрезать (он к основной статье не относится).