У меня не получается скачать http://pda.sokr.ru/. Я бы хотел сохранить себе этот сайт для просмотра и возможной дальнейшей обработки в оффлайне, но как ни настраиваю параметры, у меня скачивается не больше 600 статей.
Ввожу в адресную строку следующее:
http://pda.sokr.ru/
SkipParsingBefore=<div class="card">
SkipParsingAfter=<tr id="footer">
Уровень неограниченный.
Подскажите, что я делаю не так?
ЗЫ: Интересующая часть сайта находится исключительно в папке /card по адресу http://pda.sokr.ru/card/, поэтому идеальным вариантом был бы тот, который скачивает только статьи в этой папке.
Заранее спасибо за помощь.
http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
http://pda.sokr.ru/%D1%8{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
Это найдет все ссылки на статьи, нрачинающиеся с русских букв.
Best regards,
Oleg Chernavin
MP Staff
1) А можно ли по количеству файлов в очереди предполагать, что проект скачается успешно?
2) Заметил, что вместе с файлами из папки /card, скачивается и огромное количество файлов типа /search/?abbr=, а именно эту папку /search я раньше включал в запретный список. Так, поэтому может файлы из /card напрямую зависят от /search, чтобы проект скачался полностью, или можно занести обратно в запретный список папку /search?
3) можно ли поставить "load files only within the starting server", чтобы не качать всякие ненужные посторонние сайты, или это негативно повлияет на проект?
Ну, и наконец, уровень не надо трогать, да? То есть, для этого проекта он должен быть именно неограниченным?
Заранее огромное спасибо, программа очень нравится!
http://pda.sokr.ru/search/?abbr=%D0%B0%D0%B7&abbr_exact=1
Которые выдают больше результатов поиска. После скачивания эту папку можно будет стереть, если не нужна.
1. По количеству файлов - не всегда, но думаю, для этого сайта да.
3. Да, это точно. Достаточно только начального сайта. Другие на результат не должны влиять.
Олег.
Увы, опять не получилось. На этот раз закачка остановилась после 20000 файлов. Очередь просто исчерпывается сама собой. Видимо что-то в настройках чего-то там не учитывает. После неудачной закачки, попробовал нажать ctrl+f5, но тут же программа начинает посылать совершенно непонятные запросы, типа:
http://pda.sokr.ru/%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2%A0%D0%A1%E2%80%9D%D0%A0%D0%8E%D0%A0%E2%80%9A.%D0%A0%D0%8E%D0%A0%E2%80%9A%D0%A0%D0%8E%D0%A1%E2%80%9C/card/211648s663379e2/about/opensearch.xml
http://pda.sokr.ru/%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2%A0%D0%A1%E2%80%9D%D0%A0%D0%8E%D0%A0%E2%80%9A.%D0%A0%D0%8E%D0%A0%E2%80%9A%D0%A0%D0%8E%D0%A1%E2%80%9C/card/211648s663379e2/about/css/main.css
и так она продолжается, в очередь встают около 16000 файлов!
По идее я должен был бы все нужные мне файлы скачать одним махом, да?
Олег.
URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/add/add/?abbr=%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2024E6434C0
Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/add/?abbr=%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C20660616DF3
URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/add/css/js/jquery-1.3.2.min.js
Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/add/css/main.css
URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/about/css/main-ie6.css
Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/about/default.htm
Бывает это после остановки закачки, затем выбрав "download missing files" программа долго-долго парсит файлы, а потом начинается закачка этих бредовых файлов. Откуда они берутся понятия не имею, но они мешают скачать нужные файлы..
Олег.
OEVersion=Enterprise 6.0.0.3658
Type=0
IID=7016
Caption=http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
URL=http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/http://pda.sokr.ru/%D1%8{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
MVer=5
Lev=1000000
Weekday=257
LimTSize=10000
LimNumber=5000
LimTime=100
FMGroup=2
FTText.Exts=htmlhtmaspaspxjspstmstmlidcshtmlhtxtxttextxspxmlrxmlcfmwmlphpphp3
FTImages.Exts=gifjpgjpegtiftiffxbmfifbmppngipxjp2j2cj2kwbmplwfwebp
FTVideo.Exts=mpgavianimpegmovflvfliflcvivrmramrvasfasxwmvm1vm2vvobsmilmp4m4v
FTAudio.Exts=wavriffmp3midmp2m3uravocwmaapeoggm4aaif
FTArchive.Exts=7zziparcgzzarjlhalayleirarcabtarpakacejarpdftgzexeiso
FTUDef.Exts=jsaxdcssssivbsdtdxslswfclassent
FTText.B=ooxooo
FTImages.B=xoxooo
FTVideo.B=xoxooo
FTAudio.B=xoxooo
FTArchive.B=xoxooo
FTUDef.B=ooxooo
FTOther.B=ooxooo
FTSizes=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,3,3,0,3,0
NotIgnoreLogout=False
RSrvsBx=1
RPathIn=cardsearch xx
RProt=255
LastStart=153:16:174:146:119:244:227:64:
LastEnd=60:102:199:96:124:244:227:64:
LastStarted=20-11-2011 17:40:47
LastEnded=20-11-2011 21:17:00
S200=21279
S304=8
SPar=21287
SSav=21279
SLast=200
SSiz=228026143
SMdf=17145
SHTML=21279
SSuccDowns=3
LFiles=21287
LSize=228026143
Flags=1
ImgDim=0,0,0,0
PrevURL=http://pda.sokr.ru/%D0%B0/
ConvertRSS=True
IPAddr=-1638908982
LIndexed=False
IndexFiles=False
http://www.metaproducts.com/download/betas/eesetup.exe
Олег.
А сколько страниц вам удалось скачать?
Олег.
http://imageshack.us/photo/my-images/208/95218368.png/
Пример:
URL: http://pda.sokr.ru/add/?abbr=? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/39656sbb8bc723/css/main-ie6.css
Referer: http://pda.sokr.ru/? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/39656sbb8bc723/css/main-ie6.css
_____________________________
URL: http://pda.sokr.ru/add/?abbr=? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/276596sa74384ab/random/default.htm
Referer: http://pda.sokr.ru/? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/276596sa74384ab/random/default.htm
Итак, чтобы воспроизвести этот сценарий: проект надо докачать до конца, потом выбрать "downloading missing files", программа скачивает новые файлы, очередь заканчивается, опять нажимаем кнопку, и так продолжаем пока не появятся эти файлы (у меня стали появляться после третьего раза).
Чем эта очередь закончится, я не знаю. Может бесконечно так продолжится?
http://imageshack.us/photo/my-images/337/86816523.png/
Среди странных файлов в очереди иногда появляются нужные файлы. Не вижу в этом никакой логики..
card
search
Если не менялись эти настройки, то еще посоветую Фильтры Файлов - Пользовательские - установить Загрузка только с помощью Фильтров URL. Кроме этого в Фильтры URL - Каталоги - список разрешенных добавьте:
css
js
Олег.