超级简易 Java Web Scraping (Jsoup)
发布: (2026年2月16日 GMT+8 08:51)
1 分钟阅读
原文: Dev.to
Source: Dev.to
添加 Jsoup
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.17.2</version>
</dependency>
创建一个最小的爬虫
在本例中,我们将打印页面中所有链接(文本和 URL):
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class SimpleScraper {
public static void main(String[] args) throws Exception {
String url = "https://example.com"; // change this
Document doc = Jsoup.connect(url).get();
for (Element link : doc.select("a[href]")) {
System.out.println(link.text() + " -> " + link.absUrl("href"));
}
}
}
就这么简单!没有模型、没有 JSON,也不需要额外的库。
进阶技巧
如果你想获取特定内容,只需更改选择器。示例:
- 文章标题:
h1,h2,h3 - 商品卡片:
.product - 价格:
.price - 按 id 选择任意元素:
#price
示例:打印所有 h2 标题:
for (Element h : doc.select("h2")) {
System.out.println(h.text());
}
祝编码愉快!