Bộ chuyển đổi HTML sang TSV là một công cụ trích xuất dữ liệu từ nội dung HTML—thường là từ các bảng HTML—và chuyển đổi thành định dạng TSV (Giá trị phân cách bằng tab). TSV là định dạng văn bản thuần túy trong đó mỗi trường được phân tách bằng một tab (\t) và mỗi hàng kết thúc bằng một dòng mới. Nó được sử dụng rộng rãi để nhập/xuất dữ liệu có cấu trúc giữa các hệ thống như cơ sở dữ liệu, bảng tính hoặc trình soạn thảo văn bản.
Bạn sẽ sử dụng Bộ chuyển đổi HTML sang TSV để:
Trích xuất dữ liệu có cấu trúc từ các trang web hoặc tài liệu HTML (đặc biệt là bảng).
Chuyển đổi dữ liệu dạng bảng dựa trên web thành định dạng có thể mở trong Excel, Google Trang tính hoặc phần mềm thống kê.
Làm sạch và đơn giản hóa dữ liệu bằng cách xóa thẻ HTML và chỉ giữ lại nội dung văn bản trong bố cục có cấu trúc.
Tạo điều kiện thuận lợi cho việc phân tích dữ liệu, chia sẻ hoặc nhập vào cơ sở dữ liệu hoặc tập lệnh sử dụng đầu vào TSV.
Để sử dụng Bộ chuyển đổi HTML sang TSV:
Sao chép nội dung HTML, đặc biệt nếu nội dung đó chứa một hoặc nhiều phần tử