一款通用的HTML数据提取器:magic-html
支持从各种HTML结构中提取出主要内容,无论是简单的还是复杂的网页结构
特点:
1、返回主体区域html结构,可自定义输出纯文本或markdown
2、支持多模态抽取
3、支持多种版面extractor,文章或论坛
4、支持latex公式提取转换
一款通用的HTML数据提取器:magic-html
支持从各种HTML结构中提取出主要内容,无论是简单的还是复杂的网页结构
特点:
1、返回主体区域html结构,可自定义输出纯文本或markdown
2、支持多模态抽取
3、支持多种版面extractor,文章或论坛
4、支持latex公式提取转换