Os datasets são a base do treinamento e desenvolvimento da inteligência artificial conversacional do Tolky.
Eles consistem em conjuntos de blocos de conteúdo estrategicamente selecionados para ensinar a IA a compreender, responder e interagir de forma coerente, precisa e relevante.


📖 Definição e Importância

Um dataset é uma coleção de dados estruturados que a IA utiliza para:

  • Aprender padrões de linguagem.
  • Entender contextos específicos.
  • Adquirir conhecimento sobre temas variados.

Datasets podem ser:

  • Específicos → exclusivos de um avatar ou subavatar.
  • Compartilhados → usados por múltiplos avatares ou subavatares.

🔄 Aplicação Transversal e Específica

Exemplo de Datasets

No exemplo acima:

  • Dataset geral → acessível a todos os subavatares.
  • Dataset sucesu → exclusivo do subavatar /eventos.

📌 Datasets Compartilhados

  • Utilizados em múltiplos contextos ou avatares.
  • Garantem consistência na comunicação.
  • Exemplo: informações institucionais (história, missão, visão, valores).

🎯 Datasets Específicos

  • Criados para necessidades únicas de um avatar ou subavatar.
  • Permitem personalização profunda das respostas.
  • Exemplo: subavatar de suporte técnico com FAQs e procedimentos específicos.

🛠 Estratégias de Implementação

Para gerenciar datasets de forma eficaz:

  1. Identificar Necessidades de Conteúdo

    • Mapear informações essenciais para cada avatar.
    • Separar o que pode ser compartilhado do que precisa ser exclusivo.
  2. Curadoria e Atualização

    • Revisar periodicamente para manter informações corretas e atualizadas.
    • Adaptar conteúdos a mudanças de política, produto ou serviço.
  3. Segmentação e Personalização

    • Organizar datasets por tema ou função.
    • Garantir que cada avatar tenha conteúdo alinhado aos seus objetivos.

Uma gestão eficiente de datasets garante comunicação consistente e, ao mesmo tempo, experiências personalizadas para cada usuário.