Datacol - универсален решение за всички налични в интернет данни. Конфигуриране на данните отрязани от всяка страница, изработен в рамките на няколко кликвания на мишката. Ти просто трябва да изберете област на данните, които искате да запазите, и той ще вземе Datacol формула за рязане на блока.
За нормалната работа на програмата, системата трябва да бъдат инсталирани:
Microsoft .NET Framework 4
Microsoft Internet Explorer 7 (или по-висока)
Когато стартирате опашка кампания разбор е изпълнен в съответствие с настройките, определени в раздела Start URL адрес. Опашката също може да бъде запълнена с адрес от опашките на сметището, съхранявани в предишния разбор. Що се отнася до историята, тя може да бъде запълнена с адрес от сметището на историята, запазена в предишния разбор. Други потоци разбор започват паралелно, за да получите URL адреса от опашката. В момента на отстраняване на URL адреса от опашката (а оттам и допускане до лечение) се появява добавите този URL в историята лекува. Всеки такъв се обработват от споменатия по-долу план.
1. Проверете дали URL адреса е подходящ за събиране на данни или за събиране на връзки. Проверка се извършва в съответствие с настройките, определени в колекцията на информационния блок и навигация.
2. Заредете URL адреса на страницата. в резултат на което получаваме сорс кода на страницата.
3. Проверете дали изтегленият код на страницата за събиране на данни или за събиране на връзки. Проверка се извършва в съответствие с настройките, определени в колекцията на информационния блок и навигация.
4. Ако страницата е подходяща за събиране на данни (това се проверява преди това от URL, и кодови страници), а след това го е направила събирането на данни в съответствие с настройките, определени в блока за получаване на данни.
5. Ако страницата е подходяща за събиране на връзки (това се проверява по-рано от URL, и кодови страници), а след това се събират връзки в съответствие с настройките, определени в навигацията раздела -> Събиране на връзки. Събрани връзки са се добавят към опашката. Се вземат под внимание:
- връзки, URL, който не съответстват на никакви настройки съответстват на URL адреса за получаването на данни, NI sootvtestviya настройки, в адреса за събиране на връзки.
- връзки, които вече са в prisutstvyut Истории анализатора.
6. резултати за събиране на данни за износ. В зависимост от настройките на износ, резултатите могат да бъдат съхранени в произволен формат (обикновено CSV или TXT файл), Excel, MySQL, Wordpress или използвайки електронни износ.
Опашка - списък с линкове към страниците на сайта за преработка (което включва зареждането на страницата, събиране на данни, събирането на връзки и износ). В зависимост от настройките на кампанията, включете сметището може да се поддържа след края на разбор. В следващия старт товарене опашка може да бъде от същия сметището.
История - Това е списък на връзки към страници, които са били обработени от анализатора. В зависимост от настройките на кампанията, на сметището на историята може да се запази след края на разбор. Следващият път, когато започне историята може да се зарежда от една и съща сметището.
Ако страницата открити няколко ленти, а след това всеки от тях ще се търси една група данни.
Моля, имайте предвид, че всички полета с данни, които се намират в една и съща група трябва да са на една и съща страница на сайта (или на страницата свързване към него, това е, заявката бъде).
Основният прозорец съдържа: Menu Tree кампания, работна маса на кампании, изобразителна площ на новини и резултатите.
Също така, на дъното е лентата на състоянието.
Менюто се състои от следните раздели: Начало, напреднали.
Описание Допълнителни бутони раздела са показани по-долу.
програма папка - папката Utilities, която се намира в контролната информация, необходима за правилното функциониране на програмата.
Scheduler - Scheduler Datacol задачи.
Минимизиране на тавата - сгъване на флага в тавата вместо лентата на задачите.
За да импортирате и конфигурационни файлове износ кампании парсъри (удължаване .par) или кампания proksichekerov (удължаване .prch) с помощта на съответния бутон на менюто.
За да импортирате кампания необходимо да изберете папка, в кампанията в дървото, в която вие ще импортира на кампанията (в примера по-долу, избраната папка ПАРСЕРИ). След това натиснете бутона кампания внос.
Сега остава да изберете кампанията, файлът сте на път да внесе.
След натискане на отворите нов, внесени кампания ще се появи в кампанията за дърво.
За да експортирате кампанията е необходимо в дървото на кампания, изберете кампанията, която ще се изнася (в примера по-долу е избрана кампания kolchaka-cat.par). След това натиснете бутона Export кампания.
Сега остава да изберете папката, в която ще бъдат изнесени на кампанията.
След като експортирате настройките на кампанията си, съответните документи ще се появи в избраната папка.
За да импортирате Datacol плъгин използва Импорт плъгин елемент от менюто.
В otkryvashemsya кутия, изберете папката, която съдържа плъгин Datacol и свързаните с тях файлове. Моля, имайте предвид, че трябва да изберете точно папката, която съдържа основната DLL файл плъгин (вместо основната папка, както често се случва, когато се извлече).
В допълнение, за правилното износа в папката с приставката трябва да присъстват plugin_convention.txt файл. Този файл трябва да съдържа името на файла плъгин. Ако закупите или поръчате плъгин тук, този файл винаги присъства в папка, за да ви изпратим щепсел.
След като импортирате щепсел е на разположение за селекция в прозореца за настройки на кампанията, списъкът на плъгини.
кампании дърво дисплеи директория Кампании съдържание услуги (съхранение конфигурирани кампании). Кампании Дървото показва подпапки, кампании за синтактичен анализ на файлове (.par) файл и кампании прокси за проверка (.prch). Кампании и папки могат да бъдат управлявани с помощта на контекстното меню. Тя се причинява от десен бутон върху папката или кампания.
контекстното меню на кампанията се състои от следните елементи:
Стартиране - за изстрелване кампания избран в кампанията Tree.
Стоп - спрете кампанията избран в кампанията Tree.
Пауза - Пауза кампанията избран в кампанията Tree.
Премахване на пауза - пауза обезоръжаваща избрана кампания в кампанията Tree.
Експорт - настройки за износ на кампанията, избрани в кампаниите за дърво с изображения.
Изтриване - за изтриване на кампанията избран в кампанията Tree.
Настройки - за да отворите настройките на прозорец избрана кампания в кампанията Tree.
Копиране на кампанията - да се създаде копие на кампанията избран в кампанията Tree.
Статистика на кампанията - Статистиката сочи последното изпълнение на кампанията избран в кампанията Tree. Статистика съдържа редица страници в сметището на историята, на броя на страниците в сметище линия, както и броя на sparsennyh за последното изпълнение на резултатите.
контекстното меню на папката се състои от следните елементи:
Добавяне на папка - за да добавите подпапка в папката, избрана в кампанията Tree.
Добавяне на кампания - да се създаде нова кампания в папката, избрана в кампанията Tree.
Изтриване на папка - Изтриване на папка избран в кампанията Tree.
Започнете всички кампании - кампании работят всички папка избран в кампанията Tree.
Спрете всички кампания - спрете всички кампании папка избран в кампанията Tree.
Пауза всичките си кампании - пауза всички кампании избраната папка в кампанията Tree.
Премахване на пауза всички кампании - отстраняване от паузата всички кампании избраната папка в кампанията Tree.
Внос кампания - внос кампании, съхранявани на локалния компютър в папката, избрана в кампанията Tree.
В работните кампании маса показва информация за текущо провеждане на кампании:
Име - името на кампанията.
Статус - текущото състояние на кампанията.
История - броя на страниците в историята на кампанията.
Опашка - брой на страниците в началото на кампанията.
Резултатите - броят на намерените информация за кампаниите групи.
Потоци - брой потоци на кампанията.
Когато щракнете с десния бутон върху някоя от таблицата с кампаниите се появява контекстно меню. Той съдържа следните елементи:
В областта на показване на новини и резултати, можете да намерите връзки към последните новини, свързани Datacol програма, както и групи от данни, събрани от провеждането на кампании в този процес. Максималният брой на резултатите, които се появяват за дадена кампания, задайте настройките на кампанията. Не правете това число е твърде голям, тъй като това ще създаде допълнителна тежест върху паметта.
В лентата за състоянието показва броя консумирана от програмата в момента на RAM.
Ctrl + L - Обновяване на съдържанието на кампанията за дърво.
Ctrl + E - Отворете папката на програмата.
Ctrl + D - Отваряне на настройките за избраната кампания.
Ctrl + Q - Близо Tree кампания
Ctrl + Shift + D - Добавяне на ново поле на данни.
Ctrl + S - Запазване на всички настройки (бутон аналог Приложи).
Ctrl + X - Запазване на настройките и да затворите прозореца Preferences (същите като ключов за съхраняване и излизане).
Ctrl + T - тест в раздела Настройка на избрания (един от основните раздели: Общи, качвате, навигация, за събиране на данни, износ).
Escape - Затворете прозореца с настройки без запазване.
Често нашите клиенти не разполагат с достатъчно основна функционалност Datacol програма. В такива случаи, за да се разширят възможностите на програмата на различни етапи от работата може да прибегне до използването на плъгини. Приставката - един DLL файл, който заменя (или комплементарна) конкретна програма функция. Освен основната DLL файл щепсела обикновено включва допълнителен DLL, папка с допълнителни файлове и конфигурационни файлове (обикновено в TXT формат). Внос плъгини за програмата, описана тук.
Datacol5 поддържа следните видове разбор плъгини:
- приставка за обработка на първоначалния URL адрес;
- плъгин страница за изтегляне;
- варира събиране плъгин данни;
- събиране на данни приставки (или събира чрез приставката за обработка на данни);
- качването на файла плъгин;
- плъг-ин колекция от връзки;
- данни преди щепсел износ;
- износ плъгин.
- приставки в процес е завършен.
Datacol5 proksichekera поддържа следните видове приставки:
- източник щепсел за зареждане;
- плъгин разбор прокси;
- плъгин проверява Proxy;
- приставки в процес е завършен.
приставка манипулатор функция (pluginHandler) се използва за обработка на всички видове добавки. Аргументите, подавани го речник на параметри и низ грешка променлива. Набор от ключове и стойности (и стойностни типове) речник на параметри зависи от тип щепсел. Приставката низови променливи връща грешка работи грешка, ако е имало такова,. Ако не е настъпила грешка, тази променлива трябва да бъде празен низ.
приставка манипулатор функция връща обект, който може да има един или друг вид, в зависимост от вида на контакта. За някои видове плъгини върне стойност не е от значение.
Пълният списък на параметрите на различни видове приставки могат да бъдат намерени в изходния код на формата. Има и някои прости примери за тяхната употреба. Имайте предвид, че в описанието на манипулатора, не е задължително да използвате всички налични опции.
Window конфигурация кампания разбор е разделен на 5 основни раздела: Общи, качвате, навигация, събиране на данни и за износ.
кутия също съдържа следните бутони:
Помощник - отваря програмата за селектор, който се използва за бърз избор на XPath и регулярни изрази.
Нанесете - спестява всички настройки на кампанията.
Запазване и Exit - спестява всички настройки на кампанията и затворете прозореца за конфигуриране.
Cancel - затваря прозореца, без да запазите настройките.
Обратно (лява стрелка) - отива в раздела предишния настройки.
Следваща (дясна стрелка) - скача на следващата настройка на раздела.
Trust "стил =" текст-сянка: 0px 0px 1px # 000000; безредукторни "HREF =" / 1650-VIP-премиум-dostup-к-servisu-freeproxyru.html "> [Vip] за достъп Premium.
Trust "стил =" текст сянка: 0px 0px 1px # 000000; "HREF =" / 1122-vip11-Intellekt-Kart-администратор-VKontakte-50-shablonov-для-oformleniya-postov-vkontakte.html "> [Vip] 11 мисловни карти Admin.
Trust "стил =" текст-сянка: 0px 0px 1px # 000000; "HREF =" / 336-Invision мощност борда-331-Рус-nulled.html "> Invision Board Мощност 3.3.1 [.