сокр.ру

Nick
11/14/2011 04:09 pm
Здравствуйте, Олег!

У меня не получается скачать http://pda.sokr.ru/. Я бы хотел сохранить себе этот сайт для просмотра и возможной дальнейшей обработки в оффлайне, но как ни настраиваю параметры, у меня скачивается не больше 600 статей.

Ввожу в адресную строку следующее:

http://pda.sokr.ru/
SkipParsingBefore=<div class="card">
SkipParsingAfter=<tr id="footer">

Уровень неограниченный.

Подскажите, что я делаю не так?

ЗЫ: Интересующая часть сайта находится исключительно в папке /card по адресу http://pda.sokr.ru/card/, поэтому идеальным вариантом был бы тот, который скачивает только статьи в этой папке.

Заранее спасибо за помощь.
Oleg Chernavin
11/14/2011 04:11 pm
Я думаю, лучше всего будет воспользоваться поиском на сайте. Нужно в настройках проекта указать 2 адреса:

http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
http://pda.sokr.ru/%D1%8{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/

Это найдет все ссылки на статьи, нрачинающиеся с русских букв.

Best regards,
Oleg Chernavin
MP Staff
Nick
11/15/2011 08:38 am
Спасибо! Работает, но...опять-таки скачивается не полностью, у меня закачка заканчивается после 2716 файлов. Поставил задержку 3 секунды, все равно не помогает. В чем может быть дело?
Nick
11/15/2011 09:58 am
Кажется разобрался. Создал заново проект только с вашими настройками: скачивается, очередь более или менее постоянно пополняется и держится стабильно около 10 000 файлов. Надеюсь так удастся скачать все статьи целиком.

1) А можно ли по количеству файлов в очереди предполагать, что проект скачается успешно?

2) Заметил, что вместе с файлами из папки /card, скачивается и огромное количество файлов типа /search/?abbr=, а именно эту папку /search я раньше включал в запретный список. Так, поэтому может файлы из /card напрямую зависят от /search, чтобы проект скачался полностью, или можно занести обратно в запретный список папку /search?

3) можно ли поставить "load files only within the starting server", чтобы не качать всякие ненужные посторонние сайты, или это негативно повлияет на проект?

Ну, и наконец, уровень не надо трогать, да? То есть, для этого проекта он должен быть именно неограниченным?

Заранее огромное спасибо, программа очень нравится!
Oleg Chernavin
11/15/2011 03:12 pm
Да, уровень лучше оставить неограниченным. Я сначала думал, что 1 хватит, но увидел, что поиск по А выдает всего 150 результатов из 519. Поэтому скачивая статьи есть смысл скачивать ссылки типа

http://pda.sokr.ru/search/?abbr=%D0%B0%D0%B7&abbr_exact=1

Которые выдают больше результатов поиска. После скачивания эту папку можно будет стереть, если не нужна.

1. По количеству файлов - не всегда, но думаю, для этого сайта да.

3. Да, это точно. Достаточно только начального сайта. Другие на результат не должны влиять.

Олег.
Nick
11/15/2011 05:41 pm
Здравствуйте, Олег!

Увы, опять не получилось. На этот раз закачка остановилась после 20000 файлов. Очередь просто исчерпывается сама собой. Видимо что-то в настройках чего-то там не учитывает. После неудачной закачки, попробовал нажать ctrl+f5, но тут же программа начинает посылать совершенно непонятные запросы, типа:

http://pda.sokr.ru/%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2%A0%D0%A1%E2%80%9D%D0%A0%D0%8E%D0%A0%E2%80%9A.%D0%A0%D0%8E%D0%A0%E2%80%9A%D0%A0%D0%8E%D0%A1%E2%80%9C/card/211648s663379e2/about/opensearch.xml

http://pda.sokr.ru/%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2%A0%D0%A1%E2%80%9D%D0%A0%D0%8E%D0%A0%E2%80%9A.%D0%A0%D0%8E%D0%A0%E2%80%9A%D0%A0%D0%8E%D0%A1%E2%80%9C/card/211648s663379e2/about/css/main.css

и так она продолжается, в очередь встают около 16000 файлов!

По идее я должен был бы все нужные мне файлы скачать одним махом, да?
Oleg Chernavin
11/18/2011 04:47 pm
Это какие-то ошибки обработки файлов. Запустите закачку, поставьте на паузу (F9) и потом во вкладке Очередь созьмите несколько таких разных странных адресов и скопируйте их URL и Referer. Пришлите их мне, я посмотрю, от чего они образуются.

Олег.
Nick
11/20/2011 09:59 am
Вот несколько примеров из очереди (из 20 000+ файлов такого же типа):

URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/add/add/?abbr=%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C2024E6434C0

Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/add/?abbr=%D0%A0%D0%8E%D0%A0%D1%93%D0%A0%C2%A0%D0%A1%E2%80%A2%D0%A0%C20660616DF3

URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/add/css/js/jquery-1.3.2.min.js

Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/add/css/main.css

URL: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/about/css/main-ie6.css

Referer: http://pda.sokr.ru/? ?Z? N“? A ??a€?? A ??a€?? ?Z? a€s.? ?Z? a€s? ?Z??a€?/card/273652s8a2bc411/about/default.htm

Бывает это после остановки закачки, затем выбрав "download missing files" программа долго-долго парсит файлы, а потом начинается закачка этих бредовых файлов. Откуда они берутся понятия не имею, но они мешают скачать нужные файлы..
Oleg Chernavin
11/21/2011 08:21 am
Да, нужно копать глубже... Пришлите мне настройки проекта, я повторю загрузку. Выберите его, нажмите Ctrl+C и вставьте в сообщение форума.

Олег.
Nick
11/21/2011 11:35 am
[Object]
OEVersion=Enterprise 6.0.0.3658
Type=0
IID=7016
Caption=http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
URL=http://pda.sokr.ru/%D0%B{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/http://pda.sokr.ru/%D1%8{:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F}/
MVer=5
Lev=1000000
Weekday=257
LimTSize=10000
LimNumber=5000
LimTime=100
FMGroup=2
FTText.Exts=htmlhtmaspaspxjspstmstmlidcshtmlhtxtxttextxspxmlrxmlcfmwmlphpphp3
FTImages.Exts=gifjpgjpegtiftiffxbmfifbmppngipxjp2j2cj2kwbmplwfwebp
FTVideo.Exts=mpgavianimpegmovflvfliflcvivrmramrvasfasxwmvm1vm2vvobsmilmp4m4v
FTAudio.Exts=wavriffmp3midmp2m3uravocwmaapeoggm4aaif
FTArchive.Exts=7zziparcgzzarjlhalayleirarcabtarpakacejarpdftgzexeiso
FTUDef.Exts=jsaxdcssssivbsdtdxslswfclassent
FTText.B=ooxooo
FTImages.B=xoxooo
FTVideo.B=xoxooo
FTAudio.B=xoxooo
FTArchive.B=xoxooo
FTUDef.B=ooxooo
FTOther.B=ooxooo
FTSizes=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,3,3,0,3,0
NotIgnoreLogout=False
RSrvsBx=1
RPathIn=cardsearch xx
RProt=255
LastStart=153:16:174:146:119:244:227:64:
LastEnd=60:102:199:96:124:244:227:64:
LastStarted=20-11-2011 17:40:47
LastEnded=20-11-2011 21:17:00
S200=21279
S304=8
SPar=21287
SSav=21279
SLast=200
SSiz=228026143
SMdf=17145
SHTML=21279
SSuccDowns=3
LFiles=21287
LSize=228026143
Flags=1
ImgDim=0,0,0,0
PrevURL=http://pda.sokr.ru/%D0%B0/
ConvertRSS=True
IPAddr=-1638908982
LIndexed=False
IndexFiles=False
Oleg Chernavin
11/22/2011 08:57 am
Я повторил загрузку с этими настройками, но таких ссылок не было. Возможно, эта проблема уже исправлена. Попробуйте новую версию:

http://www.metaproducts.com/download/betas/eesetup.exe

Олег.
Nick
11/22/2011 10:22 am
Спасибо, попробую.
А сколько страниц вам удалось скачать?
Oleg Chernavin
11/22/2011 01:09 pm
Я скачал около 17 тысяч. В очереди было еще несколько тысяч файлов. Остановил, начал закачку (с пропуском закачанных файлов). Поставил на паузу, чтобы дождаться наполнения очереди. После обработки страниц ни одного странного адреса в очереди не было.

Олег.
Nick
11/22/2011 02:40 pm
Не знаю помогла ли новая версия программы или то, что я стер папку скачанных файлов и решил заново перекачать сайт, но сначала у меня тоже больше не появлялись эти файлы. Очередь опять заканчивается около 20000 файлов, но ведь это только примерно одна десятая нужных файлов. Решил все-таки нажать "download missing files", и закачка продолжается, очередь снова пополняется! Так должно быть? Так мне удалось скачать еще файлы, но вдруг опять появляются странные файлы:
http://imageshack.us/photo/my-images/208/95218368.png/

Пример:
URL: http://pda.sokr.ru/add/?abbr=? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/39656sbb8bc723/css/main-ie6.css

Referer: http://pda.sokr.ru/? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/39656sbb8bc723/css/main-ie6.css
_____________________________
URL: http://pda.sokr.ru/add/?abbr=? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/276596sa74384ab/random/default.htm

Referer: http://pda.sokr.ru/? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY? A ?’A ? a€™?’A ? A ? ?‹? ?Z??NY/card/276596sa74384ab/random/default.htm

Итак, чтобы воспроизвести этот сценарий: проект надо докачать до конца, потом выбрать "downloading missing files", программа скачивает новые файлы, очередь заканчивается, опять нажимаем кнопку, и так продолжаем пока не появятся эти файлы (у меня стали появляться после третьего раза).

Чем эта очередь закончится, я не знаю. Может бесконечно так продолжится?
Nick
11/22/2011 02:53 pm
Еще один скриншот:

http://imageshack.us/photo/my-images/337/86816523.png/

Среди странных файлов в очереди иногда появляются нужные файлы. Не вижу в этом никакой логики..
Oleg Chernavin
11/24/2011 08:57 am
Я все так-же не могу увидеть такие файлы. В принципе, они запрещены настройками проекта, который Вы мне прислали - разрешены только каталоги:

card
search

Если не менялись эти настройки, то еще посоветую Фильтры Файлов - Пользовательские - установить Загрузка только с помощью Фильтров URL. Кроме этого в Фильтры URL - Каталоги - список разрешенных добавьте:

css
js

Олег.