Не качаются словарные статьи
- User Forums
- Offline Explorer Pro
- Не качаются словарные статьи
Author | Message | |
---|---|---|
Alex | 08/16/2011 02:58 pm | |
Здравствуйте, Олег!
Пытаюсь скачать все словарные статьи с данного сайта: http://ordnet.dk/ddo/dquery?query=a la carte Видимо именно адрес "http://ordnet.dk/ddo/dquery?query=" указывает на каждую отдельную статью, однако если попытаться использоваться адресом http://ordnet.dk/ddo/dquery?query={:a..z}, то он ничего не дает. В чем может быть проблема и как мне скачать ВСЕ статьи с этого сайта? ЗЫ: Надо еще учесть один момент; в некоторых статьях присутствуют три датские буквы "?", "o", "a", а также цифры, например http://ordnet.dk/ddo/ordbog?query=12-%C3%A5rig ("12-летний"). Как можно это прописать в адрес, чтобы и те статьи скачались? Заранее спасибо за любую помощь! Александр, Москва |
||
Alex | 08/16/2011 03:03 pm | |
Вроде ошибся в адресах:
http://ordnet.dk/ddo/ordbog?query= Кажется правильный адрес, с которого открываются все статьи. Но видимо еще и с http://ordnet.dk/ddo/dquery?query= открываются нормально.. Короче запутался уже!) |
||
Oleg Chernavin | 08/16/2011 03:33 pm | |
Я думаю, лучше начать с
http://ordnet.dk/ddo/dquery?query={:a..z} http://ordnet.dk/ddo/dquery?query={:0..9} Уровень - неограниченный, фильтры URL - имена файлов - включенный список: ordbog?aselect=*&query= Так получится скачать все статьи - из алфавитного списка ссылки будут браться. Best regards, Oleg Chernavin MP Staff |
||
Alex | 08/16/2011 05:03 pm | |
Спасибо!
Только вот последнее не совсем понял.. "ordbog?aselect=*&query=" из чего состоит, как эту строку понять? и куда именно ее занести? Вставил в URL Filters -> Filename -> Keyword -> Add, галочку поставить возле "Load files only with the starting filename"? Все равно не ловит ничего.. Так программа делает только запросы типа http://ordnet.dk/ddo/dquery?query=5, http://ordnet.dk/ddo/dquery?query=9, http://ordnet.dk/ddo/dquery?query=3, http://ordnet.dk/ddo/dquery?query=k, http://ordnet.dk/ddo/dquery?query=v, ит.д.. |
||
Oleg Chernavin | 08/16/2011 06:15 pm | |
Нет, эту галку не надо ставить. А занести надо в список разрешенных имен файлов. В этой секции два списка - для запрета и разрешения.
Если зайти на страницу http://ordnet.dk/ddo/dquery?query=k, то справа будет список Alfabetisk liste. Ссылки в нем имеют вид: http://ordnet.dk/ddo/ordbog?aselect=jodinde&query=k Соответственно маска должна разрешать только адреса, начинающиеся на ordbog?aselect= и дальше продолжающиеся &query=. Так и получается ordbog?aselect=*&query= |
||
Alex | 08/17/2011 03:58 am | |
Олег, спасибо большое! Заработало! Статьи теперь потихоньку качаются одни за одними. А закачку не надо будет временно приостанавливать, чтобы ее типа не сочли атакой на сайт? Данных ведь там немало, насколько могу подсчитать, около 100 000 статей..
И последний вопросик: умеет ли offline explorer спарсить информацию со страниц так, чтобы выдрались только словарные статьи для дальнейшей обработки? Спасибо еще раз за помощь! |
||
Oleg Chernavin | 08/17/2011 05:45 am | |
А как понять "спарсить" и "выдрались"? | ||
Alex | 08/17/2011 06:20 am | |
В смысле, хотелось бы вытащить со страниц именно словарные статьи, больше ничего. Дальше эти статьи обрабатывать в текстовом редакторе или excel. | ||
Oleg Chernavin | 08/17/2011 07:07 am | |
Тут проблема. С одной стороны, в Offline Explorer Pro есть команды:
SkipParsingBefore=<body SkipParsingAfter=</html> Они позволяют вырезать кусок из середины страницы и работать с ним. Но тогда программа не сможет следовать ссылкам в боковом блоке, если его отрезать (он к основной статье не относится). |