ПредишенСледващото

Уважаеми yuzerneym. Аз, като програмист, беше поставен интересно предизвикателство - реи 20 000 хил видове стоки от интернет страницата на известен онлайн магазин. Преди това трябваше да се направи парсъри само за образователни цели. Задачата беше интересно и ново за мен. Ето защо, prosherstit Сергей Брин сайт, моя милост трябва да работи. разработване на програма за синтактичен анализ на онлайн магазин.

В тази статия няма да говорим за това, което парсера как да се научим да програма в 21 дни, как да се улови образа на света и други неща. Напротив, тя е общ преглед на инструментите, които съм използвал, срещнати проблеми и най-важното, резултатите, които са постигнати.

Синтактичен анализ онлайн магазин на PHP: Проблеми и решения

За развитието на анализатора (и в действителност хищник онлайн магазин) избра езика PHP, както на клиента, необходима интеграция с онлайн магазина си, тя е написана на този език. На живот ние често са принудени да извърши принудително използване на анализирането на регулярни изрази. Но идеята беше отхвърлена веднага като пълна лудост. Библиотека HTML SIMPLE DOM е бил избран. На него беше един куп информация в интернет, така че проблеми с неговия анализ на възникнали. От PHP, в допълнение към основните неща, че е необходимо да се разбере работата на URL. Цялата работа се извършва с локалния сървър, така че трябваше да си сложа Ubuntu LAMP. Това ми беше достатъчно, за да извършите TK.

Първият проблем, който възниква - да се ограничи броя на заявките към сайтовете на донорски. Сървърът, че ми синтактичен анализ се опитва да DDoS. лек код

което е изключително негативно влияние върху скоростта на изпълнение. Praser спят 4 секунди след като прочетете информация за даден продукт. Време беше избран емпирично.

След това е достатъчно. В противен случай има да се закълна, недостиг.

Донорът на място и моя сайт базата данни са различни кодировки. Стана ясно, когато става реи прилична сума на стоки. За тази възможност би било по-добре да се мисли предварително.

Но най-важният проблем - уязвимостта към промените в сайта на донор. Ако има желание да се промени, например, името на HTML код на клас - в парсера е също така необходимост да се направи. Така че без прилагането на техническа помощ не е вероятно да бъде по-дълъг период от време, за да работи правилно.

Ако имате някакви въпроси относно насърчаването на сайтове. промоция на онлайн магазини, включително решенията на анализирането на съдържанието на онлайн магазини, можете да се обадите на телефон. (095) -300-57-57.

Рейтинг: 4/5

Подкрепете проекта - споделете линка, благодаря!