3 примера за това как да се направи разбор на HTML файл в Java използване Jsoup.
3 Примери за разбор на HTML файл в Java използване Jsoup
Когато попаднах на това, аз бях сигурен, че решението е с отворен код библиотека, която се осъществи необходимата функционалност за мен, но аз не знаех, че това ще бъде една прекрасна и мултифункционални като Jsoup. Тя не само предоставя на HTML файлове, за да четат и разбор на подкрепата на атрибути, CSS класове в JQuery стил, но в същото време, ви позволява да ги променяте. Използването Jsoup можете да правите с HTML документ нищо.
Какво е Jsoup.
Jsoup е с отворен код на Java библиотека за работа с недвижими HTML. Тя осигурява много удобно API за извличане и обработка на данните с помощта на най-добрия DOM, CSS и JQuery подобни методи. Jsoup изпълнява спецификацията на HTML5 WHATWG и прави разбор на HTML DOM в един и същ модел, както модерен браузър, като Chrome и Firefox.
Ето и някои от най-полезните функции Jsoup библиотеката:
- Jsoup може да чисти и разбор на HTML от URL, файл или низ.
- Jsoup да намерите и изтеглите данни чрез обход DOM или CSS селектори.
- Jsoup ви позволява да манипулират HTML елементи, атрибути, и текст.
- Jsoup пречистване предоставя информация за бял списък, предоставен от страна на потребителя, за да се предотврати XSS атаки.
- Jsoup също така предвижда "отрежете» HTML.
Jsoup проектиран да работи с различни видове HTML съществуващи в реалния свят, включително надлежно потвърдена непотвърдена HTML в непълен набор от ключови думи. Едно от основните предимства на тази надеждност Jsoup.
HTML разбор в Java използване Jsoup.
В този урок ще видим три различни примери за разбор и прекосява HTML-документ в Java използване Jsoup. В първия пример, ние ще анализираме един HTML низ, съдържащ таговете във формата на символни низове, Java. Във втория пример, ние изтеглите нашия HTML-документ от интернет, и в третия пример, ние се зареди за разбор на нашата собствена проба login.html файл HTML. Този файл - HTML документ от проба, която включва таг «заглавие» и «DIV» маркер в «тяло» секция, която съдържа HTML форма. Формулярът включва полета за въвеждане на потребителско име и парола, както и бутон за нулиране и потвърждението за по-нататъшни действия. Това е "правилно" на HTML, които могат да бъдат тествани за "валидност", т.е. всички тагове и атрибути са правилно затворени. Тук е нашата HTML файл:
С Jsoup много лесно да се направи разбор на HTML, всичко, което трябва, е да се обадите на статичния метод Jsoup.parse () и да изпратите HTML низ в нея. Jsoup осигурява няколко претоварен методи синтактична (), за да го четете от низ файл, на URI от основата, от URL и от InputStream. Можете също така да определите набор от символи за правилното разчитане на HTML файл, ако не е в формат «UTF-8".
Метод синтактична (String HTML) анализира входящо HTML в нов обект документ. В Jsoup клас Документ наследява елемент клас. която се простира класа на възела. Също така, наследена от класа на възела клас TextNode. Стига да премине в метод, различен от нула низ, със сигурност ще има успех, интелигентен разбор, обект Документът съдържа (най-малко) елементи от «главата» и «тяло». Ако имате обекта Документ. Можете да получите желаната информация, като се обадите на подходящите методи на класа на документа и неговата майка Element и възел.
Java програма да се направи разбор на HTML документ.
Тук е нашата пълна програма за разбор на HTML-лайн, HTML-файл изтеглен от Интернет и локална HTML файл. За да стартирате програмата, можете да използвате IDE (Eclipse или друга) или командния ред. В Eclipse, че е много лесно, просто да копирате кода, да създадете нов проект Java, щракнете с десния бутон върху папка «SRC задачите» и поставете кода (паста). Eclipse ще се грижи за създаване на подходяща опаковка и файл с изходен код с подходящо име, толкова по-малко работа. Ако вече имате проект, Java, то е само една стъпка. Разположен по-долу програма илюстрира три примера за разбор и на преминаването на HTML файл. В първия пример, ние веднага ще направи разбор на низ, който съдържа HTML, във втория HTML-файл изтеглен от URL адреса, в третата, зареждаме и разбор на HTML документ от локалната файлова система.
- несвършени тагове. Например,
- подразбиращи тагове. Така например, той ще бъде увита на открито
- Jsoup излъчва силна структура на документа (HTML и се състои от тяло на главата, като само на съответните елементи в тялото)
Jsoup е отличен и надежден отворен код библиотека, която прави четенето фрагменти HTML документ стар тяло, HTML струни и директен анализ на HTML уеб съдържание е лесно.