Bộ giải mã HTML là một công cụ hoặc quy trình chuyển đổi các thực thể HTML (như <, >, &, v.v.) trở lại thành các ký tự tương ứng của chúng (như <, >, &, v.v.). Giải mã HTML là ngược lại với mã hóa HTML và được sử dụng để chuyển đổi văn bản được mã hóa trở lại thành định dạng mà con người có thể đọc được.
Ví dụ:
< trở thành <
> trở thành >
& trở thành &
Để chuyển đổi dữ liệu được mã hóa HTML trở lại dạng có thể đọc hoặc sử dụng được.
Để diễn giải nội dung do người dùng tạo hoặc văn bản khác đã được mã hóa để tránh phá vỡ cấu trúc HTML.
Để hiển thị nội dung chính xác khi nội dung đó đã được mã hóa trước đó để hiển thị an toàn trên trình duyệt.
Để xóa mã hóa không mong muốn khỏi dữ liệu hiện có thể được hiển thị an toàn dưới dạng văn bản thô hoặc HTML.
Giải mã HTML thường được thực hiện thông qua các hàm tích hợp trong nhiều ngôn ngữ lập trình:
Trong JavaScript, bạn có thể sử dụng textContent hoặc các thư viện giải mã các thực thể HTML.
Trong Python, bạn có thể sử dụng mô-đun html với các hàm như html.unescape().
Các ngôn ngữ lập trình khác có thể cung cấp các hàm hoặc thư viện tương tự để giải mã các thực thể HTML.
Quy trình này bao gồm việc xác định các thực thể được mã hóa và thay thế chúng bằng các ký tự tương ứng.
Khi bạn nhận được nội dung được mã hóa HTML (ví dụ: từ URL, đầu vào của người dùng hoặc phản hồi API) và cần hiển thị nó theo dạng gốc.
Khi bạn cần hiển thị nội dung HTML thô (như văn bản được mã hóa HTML trong tin nhắn hoặc bình luận) đã được mã hóa trước đó vì lý do bảo mật hoặc tương thích.
Khi truy xuất và hiển thị nội dung đã được mã hóa để sử dụng an toàn trong trình duyệt nhưng giờ đây phải được hiểu là văn bản thô (như bình luận của người dùng, đoạn mã, v.v.).
Khi xử lý dữ liệu đã được mã hóa URL hoặc mã hóa HTML để truyền hoặc lưu trữ an toàn nhưng phải được giải mã trước khi sử dụng tiếp.