Você pode testar esta rota diretamente em nossa documentação interativa.

Recebe a URL pública de um arquivo e devolve o texto extraído — PDFs são convertidos por extração de strings, imagens são descritas por visão. Funciona como etapa 1 de um pipeline: primeiro converte o arquivo em texto, depois o text retornado é injetado em partition ou split para quebrar em blocos.

Endpoint

POST /api/externalAPIs/public/smartSplit/convertToText

Parâmetros

fileUrl
string
required

URL pública do arquivo (PDF ou imagem).

hostId
string

ID do host. Inferido do token quando omitido; obrigatório para tokens de master admin.

avatarId
string

ID do avatar usado como contexto da chamada.

A API aceita tanto camelCase quanto snake_case nos parâmetros.

Tipos suportados

fileTypeExtensõesComo o texto é extraído
pdf.pdfExtração direta de strings do documento (texto nativo, não OCR).
image.jpg, .jpeg, .png, .webp, .gif, .bmp, .tiff, .svgDescrição visual por LLM de visão.
otherDemais extensõesÚltima tentativa via pipeline genérico de mídia. Retorna 400 se nada for extraído.

Exemplo

curl -X POST {{BASE_URL}}/api/externalAPIs/public/smartSplit/convertToText \
  -H "Authorization: Bearer {{TOKEN}}" \
  -H "Content-Type: application/json" \
  -d '{
    "fileUrl": "https://exemplo.com/documento.pdf"
  }'

Resposta

{
  "success": true,
  "text": "Título do documento\n\nPrimeiro parágrafo extraído...\n\nSegundo parágrafo...",
  "fileName": "documento.pdf",
  "fileType": "pdf"
}

Campos da Resposta

success
boolean

true quando o texto foi extraído com sucesso.

text
string

Texto extraído do arquivo. Para PDFs, é a concatenação das strings do documento separadas por linha em branco. Para imagens, é a descrição gerada pela IA de visão.

fileName
string

Nome do arquivo derivado do pathname da URL.

fileType
string

Tipo detectado: pdf, image ou other.

Para particionar o arquivo inteiro em blocos, encadeie o text retornado em uma chamada a partition ou split.

Erros

CódigoDescrição
400fileUrl ausente, URL inválida ou arquivo sem texto extraível
401Token inválido ou ausente
500Falha na conversão do PDF ou na descrição da mídia

Pipeline típico

Fluxo em duas chamadas: convertToText devolve o text do arquivo, e esse texto é injetado no body de partition (ou split) para virar blocos.

curl -X POST {{BASE_URL}}/api/externalAPIs/public/smartSplit/convertToText \
  -H "Authorization: Bearer {{TOKEN}}" \
  -H "Content-Type: application/json" \
  -d '{
    "fileUrl": "https://exemplo.com/documento.pdf"
  }'