声明:该公众号分享的工具和项目均来源于网络,仅供安全研究与学习之用,下载试用后请24小时内删除,不得用于任何商业用途。如用于其他用途,由使用者承担全部法律及连带责任,与工具作者和本公众号无关。 |
Defuddle是由 kepano 开发的一款网页内容提取工具。该工具能从网页中提取主要内容,去除不必要的元素(如评论、侧边栏、页眉、页脚等),使网页内容更易于阅读。它支持多种格式的输出,包括 HTML 和 Markdown,并且可以提取网页的元数据(如标题、作者、发布日期等)。 1.去除杂乱元素,提取主要内容 2.元数据提取 3.结构标准化 4.Markdown 转换 ▶ 安装: ▶ 在浏览器中使用: ▶ 在 Node.js 环境使用: ▶ 结果对象示例:Defuddle
✨ 核心功能亮点
? 安装与使用指南
npm install defuddle
# 若用于 Node.js 环境,还需:
npm install jsdomimport Defuddle from 'defuddle';
const defuddle = new Defuddle(document);
const result = defuddle.parse();
console.log(result.title, result.content);import { JSDOM } from 'jsdom';
import { Defuddle } from 'defuddle/node';
const dom = await JSDOM.fromURL('https://example.com/article');
const result = await Defuddle(dom, 'https://example.com/article', {
debug: true,
markdown: true
});
console.log(result.content, result.contentMarkdown, result.author);{
title, author, description, domain, parseTime,
content (HTML), contentMarkdown?, wordCount,
schemaOrgData, metaTags, favicon, image, published
}
? 项目信息
本文链接:https://www.kinber.cn/post/5293.html 转载需授权!
推荐本站淘宝优惠价购买喜欢的宝贝:

支付宝微信扫一扫,打赏作者吧~
