超级简易 Java Web Scraping (Jsoup)

发布: 3天前 (2026年2月16日 GMT+8 08:51)

1 分钟阅读

Source: Dev.to

添加 Jsoup

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.17.2</version>
</dependency>

创建一个最小的爬虫

在本例中，我们将打印页面中所有链接（文本和 URL）：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class SimpleScraper {
    public static void main(String[] args) throws Exception {
        String url = "https://example.com"; // change this

        Document doc = Jsoup.connect(url).get();

        for (Element link : doc.select("a[href]")) {
            System.out.println(link.text() + " -> " + link.absUrl("href"));
        }
    }
}

就这么简单！没有模型、没有 JSON，也不需要额外的库。

进阶技巧

如果你想获取特定内容，只需更改选择器。示例：

文章标题：h1, h2, h3
商品卡片：.product
价格：.price
按 id 选择任意元素：#price

示例：打印所有 h2 标题：

for (Element h : doc.select("h2")) {
    System.out.println(h.text());
}

祝编码愉快！

超级简易 Java Web Scraping (Jsoup)

添加 Jsoup

创建一个最小的爬虫

进阶技巧

相关文章

🚀 我的自动化之旅第2天 – 理解 JRE、JVM、JIT 与数据类型

ShannonMax：一个利用信息论优化 Emacs 键绑定的库

无框架，无痛：编写 Aether Slices

有状态的爬虫：为什么 Mechanize 仍然相关