颜色分类leetcode pdffigures2 给定学术PDF,提取数字、表格、标题和章节标题
颜色分类leetcode PDFFigures 2.0是一个基于Scala的项目,旨在从学术文档中提取图形、标题、表格和章节标题,重点关注计算机科学领域的文档。有关更多详细信息,请参阅我们的。输入和输出PDFFigures 2.0将PDF格式的学术文档作为输入。它的输出将是一个“图形”对象列表,对于每个图形,我们已经确定:图形出现的页面(基于0)。该页面中图形的边界框,以像素坐标形式给出,其中(0,0)是PDF裁剪框的左上角,假设该页面以72 DPI呈现。图中出现的任何文本。图的标题。标题的边界框。从标题中推断出的图形的“名称”。通常,这是一个数字(例如,标题为“Figure 1”的图形的名称将是“1”),但它可能会采用其他形式,具体取决于解析的PDF。图形是否被标记为表格或图形,再次基于标题。 PDFFigures 2还支持将提取的图形的图像保存为光栅化图像的功能。目前,我们支持可以将BufferedImage保存为的任何格式(png、jpeg等)。更具实验性的是,如果安装了pdftoca
下载地址
用户评论