Не качаются словарные статьи

User Forums
Offline Explorer Pro
Не качаются словарные статьи

Author

Message

Alex

08/16/2011 02:58 pm

Здравствуйте, Олег!

Пытаюсь скачать все словарные статьи с данного сайта:

http://ordnet.dk/ddo/dquery?query=a la carte

Видимо именно адрес "http://ordnet.dk/ddo/dquery?query=" указывает на каждую отдельную статью, однако если попытаться использоваться адресом http://ordnet.dk/ddo/dquery?query={:a..z}, то он ничего не дает. В чем может быть проблема и как мне скачать ВСЕ статьи с этого сайта?

ЗЫ: Надо еще учесть один момент; в некоторых статьях присутствуют три датские буквы "?", "o", "a", а также цифры, например http://ordnet.dk/ddo/ordbog?query=12-%C3%A5rig ("12-летний"). Как можно это прописать в адрес, чтобы и те статьи скачались?

Заранее спасибо за любую помощь!

Александр, Москва

Alex

08/16/2011 03:03 pm

Вроде ошибся в адресах:

http://ordnet.dk/ddo/ordbog?query=

Кажется правильный адрес, с которого открываются все статьи.

Но видимо еще и с http://ordnet.dk/ddo/dquery?query= открываются нормально..
Короче запутался уже!)

Oleg Chernavin

08/16/2011 03:33 pm

Я думаю, лучше начать с

http://ordnet.dk/ddo/dquery?query={:a..z}
http://ordnet.dk/ddo/dquery?query={:0..9}

Уровень - неограниченный, фильтры URL - имена файлов - включенный список:

ordbog?aselect=*&query=

Так получится скачать все статьи - из алфавитного списка ссылки будут браться.

Best regards,
Oleg Chernavin
MP Staff

Alex

08/16/2011 05:03 pm

Спасибо!

Только вот последнее не совсем понял..

"ordbog?aselect=*&query=" из чего состоит, как эту строку понять? и куда именно ее занести? Вставил в URL Filters -> Filename -> Keyword -> Add, галочку поставить возле "Load files only with the starting filename"? Все равно не ловит ничего..

Так программа делает только запросы типа http://ordnet.dk/ddo/dquery?query=5, http://ordnet.dk/ddo/dquery?query=9, http://ordnet.dk/ddo/dquery?query=3, http://ordnet.dk/ddo/dquery?query=k, http://ordnet.dk/ddo/dquery?query=v, ит.д..

Oleg Chernavin

08/16/2011 06:15 pm

Нет, эту галку не надо ставить. А занести надо в список разрешенных имен файлов. В этой секции два списка - для запрета и разрешения.

Если зайти на страницу http://ordnet.dk/ddo/dquery?query=k, то справа будет список Alfabetisk liste. Ссылки в нем имеют вид:
http://ordnet.dk/ddo/ordbog?aselect=jodinde&query=k

Соответственно маска должна разрешать только адреса, начинающиеся на ordbog?aselect= и дальше продолжающиеся &query=. Так и получается ordbog?aselect=*&query=

Alex

08/17/2011 03:58 am

Олег, спасибо большое! Заработало! Статьи теперь потихоньку качаются одни за одними. А закачку не надо будет временно приостанавливать, чтобы ее типа не сочли атакой на сайт? Данных ведь там немало, насколько могу подсчитать, около 100 000 статей..
И последний вопросик: умеет ли offline explorer спарсить информацию со страниц так, чтобы выдрались только словарные статьи для дальнейшей обработки?

Спасибо еще раз за помощь!

Oleg Chernavin

08/17/2011 05:45 am

А как понять "спарсить" и "выдрались"?

Alex

08/17/2011 06:20 am

В смысле, хотелось бы вытащить со страниц именно словарные статьи, больше ничего. Дальше эти статьи обрабатывать в текстовом редакторе или excel.

Oleg Chernavin

08/17/2011 07:07 am

Тут проблема. С одной стороны, в Offline Explorer Pro есть команды:

SkipParsingBefore=<body
SkipParsingAfter=</html>

Они позволяют вырезать кусок из середины страницы и работать с ним. Но тогда программа не сможет следовать ссылкам в боковом блоке, если его отрезать (он к основной статье не относится).

Не качаются словарные статьи

MetaProducts Systems Privacy Practices

Personal Information

Web Tracking Information

Information Security and Quality

Business Relationship

Cookies

Requests for Information and Legal Requirements

MetaProducts Systems Web Site Copyright

MetaProducts Systems End User License Agreement

TRADEMARKS

IMPORTANT: PLEASE READ THIS AGREEMENT CAREFULLY BEFORE USING THE SOFTWARE.

END USER LICENSE AGREEMENT

LICENSE OF UNREGISTERED SOFTWARE

LICENSE OF REGISTERED SOFTWARE

DISTRIBUTION OF UNREGISTERED SOFTWARE

TERM OF LICENSE

ACCEPTANCE OF THIS LICENSE AGREEMENT

LIMITATIONS OF USE

DISCLAIMER OF WARRANTY AND LIABILITY

OTHER RESTRICTIONS

INVALID PROVISIONS

ENTIRE AGREEMENT

GOVERNING LAW

MetaProducts Systems Terms of Use

TERMS OF USE

COPYRIGHT

MetaProducts Systems Trademarks