Parser - pdf
基本介绍
PDF 文档解析器是 Document Parser 接口的一个实现,用于将 PDF 文件内容解析为纯文本。该组件实现了 Eino: Document Parser 接口使用说明,主要用于以下场景:
- 需要将 PDF 文档转换为可处理的纯文本格式
- 需要按页面分割 PDF 文档内容
特性说明
PDF 解析器具有以下特点:
- 支持基本的 PDF 文本提取
- 可以选择按页面分割文档
- 自动处理 PDF 字体和编码
- 支持多页面 PDF 文档
注意事项:
- 目前可能不能完全支持所有 PDF 格式
- 不会保留空格和换行等格式信息
- 复杂的 PDF 布局可能会影响提取效果
使用方式
组件初始化
PDF 解析器通过 NewPDFParser
函数进行初始化,主要配置参数如下:
parser, err := NewPDFParser(ctx, &Config{
ToPages: true, // 是否按页面分割文档
})
配置参数说明:
ToPages
:是否将 PDF 按页面分割成多个文档,默认为 false
解析文档
文档解析通过 Parse
方法实现:
docs, err := parser.Parse(ctx, reader, opts...)
解析选项:
- 支持通过
parser.WithURI
设置文档 URI - 支持通过
parser.WithExtraMeta
添加额外元数据
完整使用示例
基本使用
package main
import (
"context"
"os"
pdfparser "github.com/cloudwego/eino-ext/components/document/parser/pdf"
"github.com/cloudwego/eino/components/document/parser"
)
func main() {
ctx := context.Background()
// 初始化解析器
p, err := pdfparser.NewPDFParser(ctx, &pdfparser.Config{
ToPages: false, // 不按页面分割
})
if err != nil {
panic(err)
}
// 打开 PDF 文件
file, err := os.Open("document.pdf")
if err != nil {
panic(err)
}
defer file.Close()
// 解析文档
docs, err := p.Parse(ctx, file,
parser.WithURI("document.pdf"),
parser.WithExtraMeta(map[string]any{
"source": "local",
}),
)
if err != nil {
panic(err)
}
// 使用解析结果
for _, doc := range docs {
println(doc.Content)
}
}
在 loader 中使用
可参考 Eino: Document Parser 接口使用说明 中的示例
相关文档
最后修改
January 13, 2025
: docs: add description for streamx (#1202) (0337c81)