一款通用的HTML数据提取器:magic-html支持...

一款通用的HTML数据提取器:magic-html

支持从各种HTML结构中提取出主要内容,无论是简单的还是复杂的网页结构

特点:

1、返回主体区域html结构,可自定义输出纯文本或markdown

2、支持多模态抽取

3、支持多种版面extractor,文章或论坛

4、支持latex公式提取转换

github:https://github.com/opendatalab/magic-html