刚刚PDF利器Chunkr开源了

PDF处理终于不再是噩梦!

Lumina AI推出的开源工具Chunkr,正在为RAG(检索增强生成)领域带来一场革命。

Chunkr:PDF处理的救星

几乎所有涉足RAG的开发者都不得不面对PDF这个"撒旦的文件格式"。现有的解决方案要么速度慢如蜗牛,要么价格高得离谱,要么就是闭源黑盒。

刚刚PDF利器Chunkr开源了-2

Chunkr的出现,让这一切有了改变。

它不仅 开源 ,而且 速度快 、 质量高 。更重要的是,它能够处理 PDF、PPT、DOCX和XLSX 等多种文件格式。

强大功能一网打尽

Chunkr提供了一系列令人垂涎的功能:

为PDF、PPT、DOCX和XLSX提供 边界框和标签

所有分段PNG的 签名URL

卓越的表格OCR能力

高速处理 :高质量模式下每秒10页,快速模式下每秒50页

更让人惊喜的是,Chunkr还提供了 1500页的免费托管API额度 !

开源的力量

Ishaan Kapoor (@Ishaank1999) 强调了开源的重要性:

我们相信像Chunkr这样的软件应该是开源的。它是代理和搜索工具所需的核心技术——这应该是一个已经解决的问题。

开源不仅让技术变得透明,也为整个社区贡献了宝贵的资源。

刚刚PDF利器Chunkr开源了-3

性能对比

刚刚PDF利器Chunkr开源了-4

Chunkr在性能上也不遑多让。与广受欢迎的开源解决方案Unstructured相比,Chunkr采用了更先进的技术。

Ishaan指出:

Unstructured是最大的可比开源解决方案,被财富500强企业中的三分之一使用——但他们依赖于像tesseract这样十年前的技术。

技术内幕

刚刚PDF利器Chunkr开源了-5

Chunkr的强大源于其精心设计的技术栈:

VGT (GiT和ViT)

OCR (paddle)

VLM (qwen)用于后备

这种组合确保了Chunkr能够高效准确地处理各种复杂文档。

对于那些饱受PDF处理之苦的开发者来说,Chunkr不仅解决了技术难题,还通过开源方式为整个社区赋能。

如Ishaan所说:

分割对搜索质量有着巨大影响。处理这些的管道不应该对你来说是个黑盒。

未来展望

随着AI和RAG技术的不断发展,Chunkr不仅简化了开发流程,还为更智能、更高效的信息处理铺平了道路。

PDF处理不再是噩梦,Chunkr让它变成了美梦。

你准备好尝试了吗?

仓库地址:

https://github.com/lumina-ai-inc/chunkr

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/139.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>