Converter para texto
Extrai texto de um PDF ou imagem pública para alimentar o particionamento
Você pode testar esta rota diretamente em nossa documentação interativa.
Recebe a URL pública de um arquivo e devolve o texto extraído — PDFs são convertidos por extração de strings, imagens são descritas por visão. Funciona como etapa 1 de um pipeline: primeiro converte o arquivo em texto, depois o text retornado é injetado em partition ou split para quebrar em blocos.
Endpoint
POST /api/externalAPIs/public/smartSplit/convertToText
Parâmetros
URL pública do arquivo (PDF ou imagem).
ID do host. Inferido do token quando omitido; obrigatório para tokens de master admin.
ID do avatar usado como contexto da chamada.
A API aceita tanto camelCase quanto snake_case nos parâmetros.
Tipos suportados
fileType | Extensões | Como o texto é extraído |
|---|---|---|
pdf | .pdf | Extração direta de strings do documento (texto nativo, não OCR). |
image | .jpg, .jpeg, .png, .webp, .gif, .bmp, .tiff, .svg | Descrição visual por LLM de visão. |
other | Demais extensões | Última tentativa via pipeline genérico de mídia. Retorna 400 se nada for extraído. |
Exemplo
curl -X POST {{BASE_URL}}/api/externalAPIs/public/smartSplit/convertToText \
-H "Authorization: Bearer {{TOKEN}}" \
-H "Content-Type: application/json" \
-d '{
"fileUrl": "https://exemplo.com/documento.pdf"
}'
Resposta
{
"success": true,
"text": "Título do documento\n\nPrimeiro parágrafo extraído...\n\nSegundo parágrafo...",
"fileName": "documento.pdf",
"fileType": "pdf"
}
Campos da Resposta
true quando o texto foi extraído com sucesso.
Texto extraído do arquivo. Para PDFs, é a concatenação das strings do documento separadas por linha em branco. Para imagens, é a descrição gerada pela IA de visão.
Nome do arquivo derivado do pathname da URL.
Tipo detectado: pdf, image ou other.
Erros
| Código | Descrição |
|---|---|
400 | fileUrl ausente, URL inválida ou arquivo sem texto extraível |
401 | Token inválido ou ausente |
500 | Falha na conversão do PDF ou na descrição da mídia |
Pipeline típico
Fluxo em duas chamadas: convertToText devolve o text do arquivo, e esse texto é injetado no body de partition (ou split) para virar blocos.
curl -X POST {{BASE_URL}}/api/externalAPIs/public/smartSplit/convertToText \
-H "Authorization: Bearer {{TOKEN}}" \
-H "Content-Type: application/json" \
-d '{
"fileUrl": "https://exemplo.com/documento.pdf"
}'