超级简易 Java Web Scraping (Jsoup)

发布: (2026年2月16日 GMT+8 08:51)
1 分钟阅读
原文: Dev.to

Source: Dev.to

添加 Jsoup

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.17.2</version>
</dependency>

创建一个最小的爬虫

在本例中,我们将打印页面中所有链接(文本和 URL):

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class SimpleScraper {
    public static void main(String[] args) throws Exception {
        String url = "https://example.com"; // change this

        Document doc = Jsoup.connect(url).get();

        for (Element link : doc.select("a[href]")) {
            System.out.println(link.text() + " -> " + link.absUrl("href"));
        }
    }
}

就这么简单!没有模型、没有 JSON,也不需要额外的库。

进阶技巧

如果你想获取特定内容,只需更改选择器。示例:

  • 文章标题:h1, h2, h3
  • 商品卡片:.product
  • 价格:.price
  • 按 id 选择任意元素:#price

示例:打印所有 h2 标题:

for (Element h : doc.select("h2")) {
    System.out.println(h.text());
}

祝编码愉快!

0 浏览
Back to Blog

相关文章

阅读更多 »