Darmowy parser HTML dla jezyka Java

JavaJericho HTML Parser jest biblioteką Javy umożliwiającą analizę i manipulowanie dokumentem HTML, również po stronie serwera. Jericho HTML Parser udostępniony jest na licencji LGPL.

Biblioteka wyróżnia się spośród innych parserów HTML następującymi cechami:

  • Nie jest generowane drzewo parsowania dla całego dokumentu. Tekst źródłowy jest przeszukiwany tylko dla znaczników związanych z bieżącą operacją. Pozwala to na analizę dokumentów zawierających niepoprawny  lub źle sformatowany kod HTML.
  • Jericho HTML Parser daje możliwość modyfikacji tylko wybranego segmentu bez konieczności poprawiania całego dokumentu.
  • Tagi ASP, JSP, PSP, PHP mogą być ignorowane podczas analizowania reszty dokumentu, tak aby nie kolidowały ze składnią HTML.
  • Niestandardowe typy tagów mogą być łatwo zdefiniowane.

Na korzyść biblioteki Jericho HTML Parser przemawia również prostota użycia podparta wieloma przykładami kodów.  Szczególnie przykłady kodu wraz z opisem sprawiają, że użycie biblioteki Jericho jest znacznie prostsze niż np. HTMLParser, z którym szybkie rozpoczęcie pracy jest chyba niemożliwe.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.


*