3 пример за това как да се направи разбор на HTML файл в Java използване jsoup

3 примера за това как да се направи разбор на HTML файл в Java използване Jsoup.

3 Примери за разбор на HTML файл в Java използване Jsoup

Когато попаднах на това, аз бях сигурен, че решението е с отворен код библиотека, която се осъществи необходимата функционалност за мен, но аз не знаех, че това ще бъде една прекрасна и мултифункционални като Jsoup. Тя не само предоставя на HTML файлове, за да четат и разбор на подкрепата на атрибути, CSS класове в JQuery стил, но в същото време, ви позволява да ги променяте. Използването Jsoup можете да правите с HTML документ нищо.

Какво е Jsoup.

Jsoup е с отворен код на Java библиотека за работа с недвижими HTML. Тя осигурява много удобно API за извличане и обработка на данните с помощта на най-добрия DOM, CSS и JQuery подобни методи. Jsoup изпълнява спецификацията на HTML5 WHATWG и прави разбор на HTML DOM в един и същ модел, както модерен браузър, като Chrome и Firefox.
Ето и някои от най-полезните функции Jsoup библиотеката:

Jsoup може да чисти и разбор на HTML от URL, файл или низ.
Jsoup да намерите и изтеглите данни чрез обход DOM или CSS селектори.
Jsoup ви позволява да манипулират HTML елементи, атрибути, и текст.
Jsoup пречистване предоставя информация за бял списък, предоставен от страна на потребителя, за да се предотврати XSS атаки.
Jsoup също така предвижда "отрежете» HTML.

Jsoup проектиран да работи с различни видове HTML съществуващи в реалния свят, включително надлежно потвърдена непотвърдена HTML в непълен набор от ключови думи. Едно от основните предимства на тази надеждност Jsoup.

HTML разбор в Java използване Jsoup.

В този урок ще видим три различни примери за разбор и прекосява HTML-документ в Java използване Jsoup. В първия пример, ние ще анализираме един HTML низ, съдържащ таговете във формата на символни низове, Java. Във втория пример, ние изтеглите нашия HTML-документ от интернет, и в третия пример, ние се зареди за разбор на нашата собствена проба login.html файл HTML. Този файл - HTML документ от проба, която включва таг «заглавие» и «DIV» маркер в «тяло» секция, която съдържа HTML форма. Формулярът включва полета за въвеждане на потребителско име и парола, както и бутон за нулиране и потвърждението за по-нататъшни действия. Това е "правилно" на HTML, които могат да бъдат тествани за "валидност", т.е. всички тагове и атрибути са правилно затворени. Тук е нашата HTML файл:

С Jsoup много лесно да се направи разбор на HTML, всичко, което трябва, е да се обадите на статичния метод Jsoup.parse () и да изпратите HTML низ в нея. Jsoup осигурява няколко претоварен методи синтактична (), за да го четете от низ файл, на URI от основата, от URL и от InputStream. Можете също така да определите набор от символи за правилното разчитане на HTML файл, ако не е в формат «UTF-8".

Метод синтактична (String HTML) анализира входящо HTML в нов обект документ. В Jsoup клас Документ наследява елемент клас. която се простира класа на възела. Също така, наследена от класа на възела клас TextNode. Стига да премине в метод, различен от нула низ, със сигурност ще има успех, интелигентен разбор, обект Документът съдържа (най-малко) елементи от «главата» и «тяло». Ако имате обекта Документ. Можете да получите желаната информация, като се обадите на подходящите методи на класа на документа и неговата майка Element и възел.

Java програма да се направи разбор на HTML документ.

Тук е нашата пълна програма за разбор на HTML-лайн, HTML-файл изтеглен от Интернет и локална HTML файл. За да стартирате програмата, можете да използвате IDE (Eclipse или друга) или командния ред. В Eclipse, че е много лесно, просто да копирате кода, да създадете нов проект Java, щракнете с десния бутон върху папка «SRC задачите» и поставете кода (паста). Eclipse ще се грижи за създаване на подходяща опаковка и файл с изходен код с подходящо име, толкова по-малко работа. Ако вече имате проект, Java, то е само една стъпка. Разположен по-долу програма илюстрира три примера за разбор и на преминаването на HTML файл. В първия пример, ние веднага ще направи разбор на низ, който съдържа HTML, във втория HTML-файл изтеглен от URL адреса, в третата, зареждаме и разбор на HTML документ от локалната файлова система.

Jsoup HTML анализатор, ще положи всички усилия, за да се създаде "чист" синтактична HTML, предоставена от вас, без значение колко добре се формира или не. Тя може да се справи следните грешки:

несвършени тагове. Например,
подразбиращи тагове. Така например, той ще бъде увита на открито
Jsoup излъчва силна структура на документа (HTML и се състои от тяло на главата, като само на съответните елементи в тялото)

Jsoup е отличен и надежден отворен код библиотека, която прави четенето фрагменти HTML документ стар тяло, HTML струни и директен анализ на HTML уеб съдържание е лесно.