Jericho HTML Parser jest biblioteką Javy umożliwiającą analizę i manipulowanie dokumentem HTML, również po stronie serwera. Jericho HTML Parser udostępniony jest na licencji LGPL.
Biblioteka wyróżnia się spośród innych parserów HTML następującymi cechami:
- Nie jest generowane drzewo parsowania dla całego dokumentu. Tekst źródłowy jest przeszukiwany tylko dla znaczników związanych z bieżącą operacją. Pozwala to na analizę dokumentów zawierających niepoprawny lub źle sformatowany kod HTML.
- Jericho HTML Parser daje możliwość modyfikacji tylko wybranego segmentu bez konieczności poprawiania całego dokumentu.
- Tagi ASP, JSP, PSP, PHP mogą być ignorowane podczas analizowania reszty dokumentu, tak aby nie kolidowały ze składnią HTML.
- Niestandardowe typy tagów mogą być łatwo zdefiniowane.
Na korzyść biblioteki Jericho HTML Parser przemawia również prostota użycia podparta wieloma przykładami kodów. Szczególnie przykłady kodu wraz z opisem sprawiają, że użycie biblioteki Jericho jest znacznie prostsze niż np. HTMLParser, z którym szybkie rozpoczęcie pracy jest chyba niemożliwe.