CrossmodalDebate

Este projeto propõe um framework para regulamentação e padronização de FMOps em blockchain. O DeepSeek atua como facilitador, promovendo transparência e conformidade nos sistemas de IA.

Automatize a conformidade! A plataforma que monitora e audita.

O modelo R1 da DeepSeek analisa as regulamentações em cada contexto, a blockchain oferece registros imutáveis, enquanto o FMOps automatiza a conformidade.

O projeto propõe um framework onde contratos inteligentes codificam requisitos regulatórios. O DeepSeek analisa registros da blockchain para identificar violações e gerar relatórios de conformidade.

A integração de blockchain, FMOps e DeepSeek reduz a carga administrativa e aumenta a confiança nos sistemas de IA. A padronização promove interoperabilidade e inovação responsável.

A plataforma promove uma IA mais confiável e alinhada com valores sociais. A colaboração entre reguladores, desenvolvedores e sociedade civil é essencial para um ecossistema responsável.

Eficiência e transparência! A plataforma que simplifica a conformidade.

O projeto explora governança descentralizada e técnicas de IA interpretáveis para aumentar a transparência.

resultados
youtube.com/@crossmodaldebate
github.com/crossmodaldebate/app

SourceURL:file:///media/sema/123265D43265BD7B/prompts/Defesa/CrossDebate.docx

UNIVERSIDADE DE BRASÍLIA

FACULDADE DE EDUCAÇÃO

PROGRAMA DE PÓS-GRADUAÇÃO EM EDUCAÇÃO

MESTRADO PROFISSIONAL – POLÍTICAS PÚBLICAS E GESTÃO DA

EDUCAÇÃO

HÉLIO CRAVEIRO PESSOA JÚNIOR

CROSSDEBATE: UM ORQUESTRADOR DO AJUSTE FINO MULTI-AGENTE A PARTIR DE COMPENSAÇÕES ENTRE CARGA COGNITIVA E COMPUTACIONAL

RESUMO

Este estudo investiga a interdependência crítica e dinâmica entre a Carga Cognitiva (CL) do operador humano e a Carga Computacional (CompL) do sistema, um desafio central na era da IA democratizada, focando no ajuste fino local (QLoRA) e na orquestração de fluxos de trabalho multi-agente (sequencial, paralelo), com LLMs GGUF (Q4 vs. Q8) em hardware de consumidor. Utilizando a plataforma CrossDebate (React/FastAPI) e um enxame de 60 modelos, a pesquisa empregou uma metodologia rigorosa de métodos mistos. A CL foi avaliada através de uma abordagem multimodal robusta, combinando instrumentos psicométricos (NASA-TLX Adaptado, SEQ) com monitoramento neurofisiológico contínuo e sincronizado, incluindo rastreamento ocular/pupilometria (POG), eletroencefalografia (EEG), fotopletismografia (PPG) para variabilidade da frequência cardíaca, e saturação periférica de oxigênio (SpO2). Simultaneamente, a CompL foi quantificada por métricas de hardware (VRAM, uso de GPU/CPU, energia). O desenho experimental manipulou sistematicamente a quantização GGUF, a complexidade do fluxo multi-agente e a expertise do operador. Os resultados confirmaram que a quantização agressiva (Q4) reduziu a CompL, mas aumentou significativamente a CL (H1). A complexidade crescente dos fluxos elevou ambas as cargas (H2). Crucialmente, a relação CL-CompL revelou-se não linear (forma de U/J), indicando um "ponto ideal" de CompL/qualidade moderada (Q8) que minimiza a CL (H3). A expertise atuou como moderador, amortecendo o aumento da CL para especialistas (H4). Os achados sublinham a necessidade de sistemas de IA locais co-adaptativos que gerenciem ativamente o equilíbrio CL-CompL, visando a zona ótima de interação. A plataforma e resultados estão em crossdebate.com. A plataforma e resultados estão em crossdebate.com.

Palavras-chave: Fluxos de Trabalho de Análise de Dados; LLMs agenticamente relacionados; Computação Neurofisiológica; Eficiência Computacional; Ajuste Fino de Sistema Generativo/Deterministico.

ABSTRACT

This study investigates the critical and dynamic interdependence between human operator Cognitive Load (CL) and system Computational Load (CompL), a central challenge in the era of democratized AI. It focuses on local fine-tuning (QLoRA) and the orchestration of multi-agent workflows (sequential, parallel) using GGUF LLMs (Q4 vs. Q8) on consumer hardware. Utilizing the CrossDebate platform (React/FastAPI) and a swarm of 60 models, the research employed a rigorous mixed-methods methodology. CL was assessed through a robust multimodal approach, combining psychometric instruments (Adapted NASA-TLX, SEQ) with continuous and synchronized neurophysiological monitoring, including eye-tracking/pupillometry (POG), electroencephalography (EEG), photoplethysmography (PPG) for heart rate variability (HRV), and peripheral oxygen saturation (SpO2). Simultaneously, CompL was quantified by hardware metrics (VRAM, GPU/CPU usage, power). The experimental design systematically manipulated GGUF quantization, multi-agent workflow complexity, and operator expertise. Results confirmed that aggressive quantization (Q4) reduced CompL but significantly increased CL (H1). Increasing workflow complexity raised both loads (H2). Crucially, the CL-CompL relationship proved to be non-linear (U/J-shaped), indicating a 'sweet spot' of moderate CompL/quality (Q8) that minimizes CL (H3). Expertise acted as a moderator, buffering the increase in CL for experts (H4). The findings underscore the need for co-adaptive local AI systems that actively manage the CL-CompL balance, aiming for the optimal interaction zone. The platform and results are available at crossdebate.com.

Keywords: Data Analysis Workflows; Agentic LLM Workflows; Neurophysiological Computing; Computational Efficiency; Generative/Deterministic System Fine-Tuning.

1. INTRODUÇÃO

A inteligência artificial (IA) contemporânea encontra-se em um ponto de inflexão, impulsionada por avanços exponenciais na capacidade e acessibilidade dos Grandes Modelos de Linguagem (LLMs). Arquiteturas seminais, como as famílias GPT (OpenAI, 2025; Kumar et al., 2025), LLaMA (Touvron et al., 2023a, 2023b; Meta, 2024; Kim et al., 2025; Wang et al., 2025a), Mistral (Jiang et al., 2023) e Claude (Anthropic, 2025a, 2025b), demonstraram uma proficiência sem precedentes em tarefas que vão desde a geração de linguagem natural e tradução automática até formas complexas de raciocínio, planejamento e resolução de problemas em múltiplos domínios (Bubeck et al., 2023; Zhao et al., 2025a; Chang et al., 2023; Liu et al., 2025). Este progresso tem sido, em parte, atribuído a leis de escala empíricas que correlacionam o desempenho aprimorado com o aumento exponencial no número de parâmetros do modelo e no volume de dados de pré-treinamento (Kaplan et al., 2020; Hoffmann et al., 2022). As "habilidades emergentes" resultantes (Wei et al., 2022b; Ouyang et al., 2022) – capacidades não explicitamente presentes em modelos menores, mas que surgem quando os modelos ultrapassam certos limiares de escala – sugeriram um caminho, embora computacionalmente oneroso, em direção a sistemas de IA com capacidades cognitivas cada vez mais generalizadas, aproximando as máquinas da cognição de nível humano em domínios restritos (Goertzel, 2014; Bubeck et al., 2023). Modelos mais recentes, como o DeepSeek-R1, exemplificam essa tendência, incorporando etapas explícitas de raciocínio para melhorar a qualidade das respostas em tarefas complexas (DeepSeek-AI, 2025; Marjanović et al., 2025; Liu et al., 2023), um processo que, embora poderoso, adiciona novas camadas de complexidade computacional e interpretativa.

Historicamente, no entanto, a própria escala que confere poder a esses LLMs representou uma barreira significativa. Os vastos recursos computacionais (medidos em PetaFLOP-dias), de memória (centenas de gigabytes VRAM/RAM) e energéticos necessários para treinar e, em menor grau, para servir modelos de fronteira, confinaram seu desenvolvimento e uso a um número limitado de grandes corporações tecnológicas e instituições de pesquisa com recursos substanciais (Strubell et al., 2019; Bender et al., 2021; Bai et al., 2024). Essa centralização levantou preocupações sobre equidade no acesso, reprodutibilidade da pesquisa e a pegada ambiental da IA (Husom et al., 2025), limitando a exploração e inovação por parte de pesquisadores independentes, pequenas empresas e estudantes.

Uma mudança de paradigma fundamental em direção à democratização do acesso e uso de LLMs foi precipitada por avanços convergentes em técnicas de quantização de modelos e no desenvolvimento de formatos de arquivo e runtimes otimizados para execução local. A quantização, o processo de redução da precisão numérica dos pesos e/ou ativações do modelo (por exemplo, de ponto flutuante de 16 bits - FP16 - para inteiros de 8 ou 4 bits - INT8, INT4), provou ser uma estratégia altamente eficaz para diminuir drasticamente a pegada de memória e, frequentemente, acelerar a computação de inferência (Nagel et al., 2021; Jacob et al., 2018; Gholami et al., 2021; Dettmers et al., 2022; Frantar et al., 2022; Xiao et al., 2023; Lin et al., 2024; Shao et al., 2024; Ma et al., 2024; Li et al., 2024; Zhang et al., 2024; Zhao e Yaun, 2025; Jia et al., 2025). Formatos como o GPT-Generated Unified Format (GGUF), especificamente projetados para encapsular modelos quantizados e seus metadados essenciais (arquitetura, vocabulário, parâmetros de quantização), juntamente com runtimes C/C++ altamente otimizados como llama.cpp (Zhao e Yaun, 2025; Jia et al., 2025) e frameworks como Ollama (Husom et al., 2025), tornaram viável a execução de LLMs com bilhões de parâmetros em hardware de nível de consumidor, como laptops e desktops equipados com CPUs modernas e GPUs modestas (por exemplo, as NVIDIA RTX 3060/12GB e RTX 4050/6GB utilizadas neste estudo). Essa transição para a execução local ("on-device AI") abordou diretamente as preocupações com custos de API, latência de rede, privacidade de dados (mantendo prompts e dados no dispositivo do usuário) e a necessidade de funcionalidade offline (Shneier, 2015; Birkmose et al., 2025; Husom et al., 2025; Jia et al., 2025), abrindo novas avenidas para aplicações de IA personalizadas e responsivas.

Embora a capacidade de executar inferência com modelos GGUF pré-treinados localmente represente um avanço significativo, a realização de seu pleno potencial para aplicações especializadas frequentemente exige ajuste fino (fine-tuning) (Howard e Ruder, 2018; Devlin et al., 2019; Raffel et al., 2020). O ajuste fino adapta um modelo pré-treinado a uma tarefa ou domínio específico (por exemplo, análise de sentimento em um corpus específico, geração de código em um estilo particular (Afrin et al., 2025; Ayupov e Chirkova, 2022), resposta a perguntas sobre uma base de conhecimento proprietária) usando um conjunto de dados menor e direcionado. Ele permite que os usuários personalizem o comportamento do LLM, superando as limitações do aprendizado in-context (few-shot prompting) para tarefas que exigem aquisição de conhecimento de nicho (Jindal et al., 2024; Saroufim et al, 2025). No entanto, o ajuste fino completo (FFT), que atualiza todos os parâmetros do modelo, permanece computacionalmente proibitivo para LLMs robustos em hardware local, mesmo quando o modelo base é quantizado, devido aos requisitos de memória para armazenar gradientes, estados do otimizador (por exemplo, momentos Adam) e ativações intermediárias para retropropagação (Dodge et al., 2020; Afrin et al., 2025).

Essa limitação impulsionou o desenvolvimento e a adoção generalizada de técnicas de Ajuste Fino Eficiente em Parâmetros (PEFT) (Houlsby et al., 2019; Lester et al., 2021; Lialin et al., 2023; Afrin et al., 2025; Wang et al., 2025b; Weyssow et al., 2023). Métodos PEFT, como a proeminente Low-Rank Adaptation (LoRA) (Hu et al., 2022) e suas variantes, adaptam LLMs pré-treinados adicionando novos parâmetros treináveis de baixa dimensionalidade, mantendo a vasta maioria dos pesos originais congelados. A Quantized Low-Rank Adaptation (QLoRA) (Dettmers et al., 2023; Afrin et al., 2025), em particular, combina LoRA com quantização agressiva (4 bits, como o formato NF4) do modelo base congelado e otimizações de memória adicionais (Double Quantization, Paged Optimizers). Essa sinergia tornou possível ajustar finamente modelos GGUF de dezenas de bilhões de parâmetros em GPUs de consumidor com VRAM limitada (por exemplo, 6-12GB, como as RTX 3060 e 4050), representando um marco na democratização não apenas da inferência, mas também da adaptação de LLMs localmente. Bibliotecas como peft da HuggingFace (Saroufim et al, 2025) e otimizações como unsloth (unsloth, 2024) facilitaram a implementação prática dessas técnicas, tornando o ajuste fino local uma realidade tangível para um público mais amplo.

No entanto, este novo paradigma de ajuste fino local de LLMs GGUF, embora computacionalmente viável, introduz uma nova camada de complexidade na interação humano-máquina. O processo não é uma operação "aperte o botão"; ele permanece fundamentalmente uma atividade Humano-no-Loop (HITL) (Amershi et al., 2019; Amershi et al., 2014), exigindo supervisão humana significativa, tomada de decisão e esforço cognitivo. O operador humano é responsável por uma série de tarefas cognitivamente exigentes: curar e preparar o conjunto de dados de ajuste fino; projetar prompts eficazes para guiar o modelo; selecionar e otimizar hiperparâmetros (taxa de aprendizado, tamanho do lote, número de épocas, parâmetros específicos de QLoRA como ranque r e alpha); monitorar o progresso do treinamento pela analisando curvas de perda; avaliar rigorosamente o desempenho do modelo resultante em dados de validação/teste usando métricas apropriadas (Perplexidade, ROUGE, Acurácia, F1, etc., usando ferramentas como lm-eval (Gao et al., 2021)); e iterativamente refinar o processo com base nos resultados (Retzlaff et al., 2024; Liu et al., 2023; Li et al., 2021; Ribeiro et al., 2020; Vaithilingam et al., 2025). Cada uma dessas etapas envolve julgamento sob incerteza, interpretação de feedback muitas vezes ambíguo (especialmente de modelos de baixa precisão, como os Q4 investigados aqui) e um ciclo contínuo de experimentação e ajuste. Esse esforço mental imposto ao operador é o que a psicologia cognitiva denomina Carga Cognitiva (CL) (Sweller, 1988). A dificuldade intrínseca de trabalhar com modelos que podem exibir comportamentos degradados devido à quantização (Marjanović et al., 2025) contribui significativamente para essa carga.

Concomitantemente, o próprio processo de ajuste fino, mesmo com modelos GGUF quantizados e técnicas PEFT como QLoRA, impõe uma Carga Computacional (CompL) não trivial no hardware local. Embora drasticamente reduzida em comparação com o FFT, a CompL ainda inclui demandas sobre VRAM (para o modelo base quantizado, adaptadores LoRA, ativações, estados do otimizador), ciclos de GPU/CPU (para passagens forward/backward, mesmo que apenas para os adaptadores) e consumo de energia (Gupta et al., 2020; Narayanan et al., 2019; Jouppi et al., 2017; Husom et al., 2025). Gerenciar essa CompL dentro das restrições do hardware local (por exemplo, GPUs RTX 3060/12GB e RTX 4050/6GB) é um desafio prático significativo, exigindo que o operador tome decisões conscientes sobre alocação de recursos e otimização de parâmetros que afetam diretamente o desempenho do sistema.

Este estudo postula que a Carga Cognitiva (CL) imposta ao operador humano e a Carga Computacional (CompL) exigida do hardware local não são fatores independentes a serem otimizados isoladamente. Em vez disso, argumentamos que eles existem em um estado de interdependência complexa e dinâmica. Decisões de configuração destinadas a otimizar uma carga (por exemplo, usar quantização GGUF Q4 para minimizar CompL) frequentemente têm repercussões diretas e, às vezes, contraintuitivas sobre a outra (por exemplo, aumentando a CL devido à dificuldade de trabalhar com um modelo de baixa qualidade). Essa interação CL-CompL torna-se ainda mais intrincada ao considerar fluxos de trabalho modernos de análise de dados que alavancam múltiplos agentes LLM (Wu et al., 2023; Park et al., 2023; Luo et al., 2025a; Liu et al., 2025). A ideia de usar "agentes" – sistemas que podem realizar tarefas de forma independente em nome do usuário, utilizando ferramentas e tomando decisões (OpenAI, 2025) – é particularmente promissora para lidar com workflows complexos que resistem à automação tradicional devido à necessidade de tomada de decisão nuanceda (OpenAI, 2025). Orquestrar um "enxame" de agentes GGUF especializados (neste estudo, especificamente 30 modelos Q4 e 30 modelos Q8, totalizando 60 agentes) para lidar com pipelines de análise complexos (definidos via configurações estruturadas, gerenciados por um backend FastAPI, visualizados via frontend React) amplifica tanto a CL gerencial (configuração, monitoramento, integração de resultados) quanto a CompL agregada (múltiplos processos concorrentes) (Kirschner et al., 2006; Baddeley, 2012; Pope et al., 1995; Kwon et al., 2023). A complexidade aumenta ao considerar que esses LLMs agenticamente relacionados (3) podem precisar interagir de forma sequencial ou paralela, compartilhar contexto usar ferramentas externas via protocolos como MCP (Ghosh, 2025; Ahmadi et al., 2024; Wijaya et al., 2025) ou serem modelados usando representações complexas como hipergrafos (Feng et al., 2024; Feng et al., 2023; Brown et al., 2025) para capturar dependências de ordem superior.

Nossa pesquisa concentra-se em uma plataforma específica, denominada CrossDebate, projetada como um orquestrador para gerenciar este conjunto diversificado de 60 modelos GGUF (30 Q4, 30 Q8). Este sistema visa não apenas executar tarefas de ajuste fino (usando QLoRA) e inferência, mas também interpretar o sucesso e a falha desses modelos integrando fluxos de dados em tempo real: dados psicofisiológicos refletindo a CL do operador (pupilometria/rastreamento ocular - POG, eletroencefalografia - EEG, fotopletismografia - PPG para variabilidade da frequência cardíaca - HRV, saturação periférica de oxigênio - SpO2) (Ahmad et al., 2023; Yu et al., 2024; Belda-Lois, 2024; Iarlori et al., 2024; Orovas et al., 2024; Balconi et al., 2025; Blackmore et al., 2024; Traunmueller et al., 2024) e dados de física computacional refletindo a CompL (consumo de energia, termodinâmica, uso de VRAM/CPU) (Bai et al., 2024; Zhao e Yaun, 2025; Husom et al., 2025). Este monitoramento integrado, facilitado por um frontend React para visualização e controle e um backend FastAPI para processamento de dados e orquestração (seguindo padrões de design de agentes como discutido em (OpenAI, 2025)), destina-se a guiar dinamicamente o processo de ajuste fino contínuo para este enxame de modelos. O sistema pode, por exemplo, adaptar parâmetros de ajuste fino ou sugerir alterações no fluxo de trabalho multi-agente para manter um equilíbrio ótimo entre a capacidade cognitiva humana e as limitações do hardware. A hipótese subjacente é que, ao tornar a interação CL-CompL visível e acionável, podemos projetar sistemas de IA locais mais eficazes e ergonômicos. A análise do processos de raciocínio, como explorado em modelos como DeepSeek-R1 (Marjanović et al., 2025), pode fornecer insights adicionais sobre as fontes de CL (por exemplo, raciocínio ineficiente) que podem ser correlacionadas com a CompL.

Apesar da rápida adoção do ajuste fino local de GGUF e da exploração de fluxos de trabalho de multi-agente, a interação específica e dinâmica entre CL e CompL dentro de sistemas tão complexos e adaptativos permanece um território amplamente inexplorado. A pesquisa existente frequentemente otimiza a CompL isoladamente (Dao et al., 2022; Fedus et al., 2022) ou estuda a CL em contextos de aprendizado ou interação com interfaces mais simples (Mayer e Moreno, 2003; Duran et al., 2022), sem as severas restrições de hardware ou a complexidade de orquestração multi-agente presentes aqui. Estudos sobre ajuste fino HITL raramente quantificam a CL sistematicamente ou a vinculam diretamente às compensações de CompL (Amershi et al., 2019; Stiennon et al., 2020). A pesquisa em sistemas multi-agente muitas vezes negligencia o fardo combinado CL/CompL sobre o orquestrador humano em ambientes com recursos limitados (Wu et al., 2023; Hong et al., 2023; Luo et al., 2025a), focando mais na coordenação entre agentes do que na interação com o operador humano (OpenAI, 2025). Além disso, estratégias emergentes para melhorar modelos menores usando saídas de modelos maiores e mais capazes (como os modelos de raciocínio) (Wang et al., 2025a) adicionam outra dimensão a ser considerada: como o processo de destilação de conhecimento ou ajuste fino supervisionado com dados de alta qualidade afeta o equilíbrio CL-CompL?

Este estudo visa preencher essa lacuna crítica. Propomos uma estrutura abrangente e uma metodologia para analisar sistematicamente a interdependência CL-CompL durante o ajuste fino e a operação de fluxos de trabalho de modelos GGUF multi-agente (especificamente, 30 Q4 e 30 Q8) dentro de um ambiente de computação local realista, alavancando nossa plataforma CrossDebate (React/FastAPI) para monitoramento e controle. Nossos objetivos são: (1) Desenvolver uma estrutura conceitual integrada combinando a CLT com métricas de desempenho computacional, incorporando monitoramento fisiológico e de sistema. (2) Implementar uma metodologia de métodos mistos para medir concorrentemente CL e CompL durante tarefas representativas (ajuste fino QLoRA, gerenciamento de fluxo multi-agente). (3) Conduzir estudos empíricos onde os participantes (com diferentes níveis de expertise) gerenciam essas tarefas sob condições variadas (nível de quantização GGUF, complexidade do fluxo). (4) Analisar os dados para modelar a covariância CL-CompL, investigar sua natureza não linear, como sugerido pela variabilidade no desempenho de modelos de raciocínio (Marjanović et al., 2025) e entender os efeitos moderadores (como a expertise). (5) Derivar diretrizes práticas para projetar fluxos de trabalho e interfaces de ajuste fino eficientes e ergonômicos, informados por princípios de IA centrada no humano (Xu, 2019; Mwamba e Nkosi, 2023) e considerações éticas (Floridi e Taddeo, 2016; Jobin et al., 2019; Gebru et al., 2021; Bender et al., 2021). Ao investigar sistematicamente essa interdependência fulcral, esta pesquisa busca fornecer insights valiosos para construir aplicações LLM locais mais acessíveis, eficientes e centradas no humano, possibilitando uma colaboração mais harmoniosa e produtiva entre mentes humanas e máquinas computacionais.

2. REVISÃO DA LITERATURA

Esta seção fornece uma revisão abrangente da literatura pertinente, estabelecendo as bases teóricas e empíricas para a investigação da interdependência entre Carga Cognitiva (CL) e Carga Computacional (CompL) no contexto específico do ajuste fino local de modelos GGUF multi-agente gerenciados por uma arquitetura React/FastAPI. Abordaremos os avanços em LLMs e sua execução local, técnicas de ajuste fino eficientes em parâmetros, a Teoria da Carga Cognitiva e seus métodos de medição, métricas de carga computacional, a complexidade dos fluxos de trabalho multi-agente, e, primordialmente, a literatura existente (e suas lacunas) na interseção dessas áreas. O objetivo é contextualizar nossa pesquisa dentro do panorama científico atual e justificar a necessidade e a originalidade de nossa abordagem focada na dinâmica CL-CompL em sistemas de IA locais e complexos.

2.1 Grandes Modelos de Linguagem e a Mudança para a Execução Local

A trajetória recente da inteligência artificial foi marcada por um crescimento exponencial na escala e capacidade dos LLMs (Zhao et al., 2025a). Modelos fundacionais como GPT-3 (Brown et al., 2020), PaLM (Chowdhery et al., 2023), Llama (Touvron et al., 2023a, 2023b; Wang et al., 2025a), Claude (Liu et al., 2025) e outros demonstraram que o aumento de parâmetros e dados de treinamento leva a habilidades emergentes em aprendizado few-shot, seguimento de instruções complexas e raciocínio multi-etapa (Wei et al., 2022b; Ouyang et al., 2022; Kumar et al., 2025). Essas "habilidades emergentes" – capacidades não explicitamente presentes em modelos menores, mas que surgem quando os modelos ultrapassam certos limiares de escala – sugeriram mudanças qualitativas no processamento de informações, aproximando as máquinas da cognição de nível humano em domínios restritos (Bubeck et al., 2023; Liu et al., 2025). Modelos mais recentes, como o DeepSeek-R1 (DeepSeek-AI, 2025), levaram isso adiante, incorporando explicitamente "cadeias de pensamento" (reasoning chains) em seu processo de geração. Em vez de produzir uma resposta diretamente, esses modelos primeiro geram etapas intermediárias de raciocínio, explorando diferentes abordagens e verificando soluções antes de chegar a uma resposta final (Marjanović et al., 2025). Essa capacidade de "pensar" antes de responder, muitas vezes impulsionada por técnicas de aprendizado por reforço que recompensam processos de pensamento corretos (DeepSeek-AI, 2025; OpenAI, 2025), levou a melhorias significativas em tarefas complexas como matemática e codificação. No entanto, essa escalada em capacidade e complexidade de raciocínio veio acompanhada de custos computacionais proibitivos, limitando o acesso e levantando preocupações sobre a sustentabilidade e a pegada de carbono da IA (Strubell et al., 2019; Bai et al., 2024; Husom et al., 2025; Bender et al., 2021). O treinamento desses modelos exige vastos clusters de GPUs operando por semanas, consumindo quantidades significativas de energia e incorrendo em custos financeiros substanciais, confinando efetivamente o desenvolvimento de modelos de fronteira a um pequeno número de atores com recursos abundantes.

Um ponto de inflexão primordial foi o desenvolvimento e a ampla adoção de técnicas de quantização de modelos (Nagel et al., 2021; Gholami et al., 2021; Jia et al., 2025). Métodos que reduzem a precisão numérica dos pesos e/ou ativações do modelo (por exemplo, de FP16 para INT4) (Dettmers et al., 2022; Frantar et al., 2022; Xiao et al., 2023; Lin et al., 2024; Shao et al., 2024; Ma et al., 2024; Li et al., 2024; Zhang et al., 2024; Husom et al., 2025) cortaram vultosamente os requisitos de memória (VRAM) e, em muitos casos, os requisitos computacionais (FLOPS). A quantização pós-treinamento (PTQ), que aplica essas reduções a um modelo já treinado, tornou-se particularmente popular por sua praticidade (Husom et al., 2025, Jia et al., 2025). Técnicas mais avançadas, como o uso de tipos de dados não uniformes (por exemplo, NF4 em QLoRA (Dettmers et al., 2023)), quantização de granulosidade mista e otimizações de hardware específicas para operações de baixa precisão, continuam a empurrar os limites da compressão de modelos (Zhang et al., 2024; Zhao e Yaun, 2025).

Formatos de arquivo como o GPT-Generated Unified Format (GGUF), projetados para a distribuição e execução eficientes de modelos quantizados através de runtimes otimizados como llama.cpp (Zhao e Yaun, 2025; Jia et al., 2025) e frameworks como Ollama (Husom et al., 2025), foram instrumentais para permitir a execução local ("on-device") de LLMs em hardware de nível de consumidor (CPUs e GPUs modestas, como as RTX 3060 e 4050 usadas neste estudo). O GGUF encapsula tensores quantizados e metadados cruciais (arquitetura, vocabulário, parâmetros de quantização), garantindo carregamento e execução consistentes. O llama.cpp, uma biblioteca C/C++ altamente otimizada, implementa inferência para muitas arquiteturas LLM diretamente em CPUs (com aceleração via CUDA), tornando viável executar modelos de bilhões de parâmetros em laptops ou desktops comuns. Essa democratização abordou preocupações chave em torno de custo, privacidade (mantendo dados no dispositivo) e acessibilidade offline (Dodge et al., 2022; Birkmose et al., 2025). A capacidade de executar LLMs localmente, como demonstrado em estudos sobre inferência em dispositivos de ponta (Husom et al., 2025, Jia et al., 2025), representa um passo fundamental para aplicações de IA mais personalizadas e responsivas, permitindo que usuários e desenvolvedores experimentem e implantem esses modelos sem depender de APIs de nuvem caras ou enfrentar problemas de latência e privacidade.

2.2 Ajuste Fino de Modelos Quantizados (PEFT/QLoRA)

Embora modelos GGUF pré-treinados ofereçam capacidades gerais localmente, a especialização para tarefas ou domínios específicos frequentemente requer ajuste fino (fine-tuning) (Howard e Ruder, 2018; Wang et al., 2025b). O ajuste fino permite adaptar o comportamento de um LLM a necessidades particulares, como melhorar o desempenho em um conjunto de dados específico, adotar um estilo de escrita particular ou incorporar conhecimento de domínio (Afrin et al., 2025). O ajuste fino completo (FFT), atualizando todos os parâmetros, permanece computacionalmente inviável no hardware local típico, mesmo para modelos quantizados, devido aos requisitos massivos de memória para parâmetros, gradientes, estados do otimizador e ativações (Dodge et al., 2020; Afrin et al., 2025). Por exemplo, ajustar um modelo de 7 bilhões de parâmetros requer significativamente mais VRAM do que simplesmente executar a inferência, tornando o FFT impraticável em GPUs de consumidor com 6-12GB de VRAM.

Isso impulsionou o desenvolvimento de métodos de Ajuste Fino Eficiente em Parâmetros (PEFT) (Houlsby et al., 2019; Lester et al., 2021; Lialin et al., 2023; Afrin et al., 2025, Wang et al., 2025b). As técnicas PEFT adaptam LLMs pré-treinados adicionando novos parâmetros treináveis, mantendo a maioria dos pesos congelados. Exemplos proeminentes incluem Adapters (Houlsby et al., 2019), Prompt Tuning (Lester et al., 2021) e, notavelmente, Low-Rank Adaptation (LoRA) (Hu et al., 2022). LoRA injeta pares de matrizes de baixo ranque treináveis (A e B, onde a atualização de peso ∆W = BA) em camadas selecionadas (geralmente camadas de atenção), reduzindo drasticamente os parâmetros treináveis e a pegada de memória do otimizador. Isso permite que o ajuste fino ocorra com uma fração dos recursos necessários para o FFT.

O avanço fulcral para o ajuste fino local de modelos quantizados foi a Quantized Low-Rank Adaptation (QLoRA) (Dettmers et al., 2023; Afrin et al., 2025). QLoRA combina LoRA com quantização agressiva (NF4, um formato de 4 bits otimizado para pesos de redes neurais normalmente distribuídos) do modelo fundacional congelado e técnicas como Double Quantization (quantizar as constantes de quantização) e Paged Optimizers (usar memória paginada da CPU para descarregar estados do otimizador) para gerenciar picos de memória. Isso tornou possível ajustar finamente modelos GGUF de alguns bilhões de parâmetros (como os modelos de 7B baseados em Mistral ou Phi usados neste estudo) em GPUs de consumidor com VRAM limitada (por exemplo, as RTX 3060/12GB e RTX 4050/6GB), um marco para a acessibilidade. Pesquisas subsequentes refinaram ainda mais o PEFT para modelos quantizados, explorando seleção adaptativa de ranque (DyLoRA (Valipour et al., 2022)), melhor inicialização (LoftQ (Li et al., 2023b)) e integração mais profunda da quantização (QA-LoRA (Xu et al., 2023)). Frameworks como FedPETuning (Wang et al., 2025b; Liu et al. 2023) exploram PEFT em cenários de aprendizado federado, e bibliotecas como peft da HuggingFace (Saroufim et al, 2025) e otimizações como unsloth (unsloth, 2024) facilitaram a implementação prática dessas técnicas, tornando o ajuste fino QLoRA acessível a desenvolvedores e pesquisadores com hardware modesto.

Uma área relacionada e emergente é o uso de saídas de modelos de raciocínio mais capazes (como DeepSeek-R1 ou QwQ-32B) para treinar modelos menores e menos intensivos computacionalmente (Wang et al., 2025a). A ideia é que as respostas de alta qualidade geradas pelos modelos de raciocínio, que podem incluir etapas de pensamento explícitas, podem servir como dados de treinamento superiores para um ajuste fino supervisionado (SFT) de modelos não-raciocinadores. Wang et al. (2025a) exploraram diferentes métodos para utilizar essas respostas, como incluir um resumo do processo de pensamento, demonstrando melhorias consistentes em benchmarks. Este processo de "destilação de raciocínio" pode ser visto como uma forma especializada de ajuste fino, onde o objetivo é transferir não apenas o conhecimento factual, mas também parte da capacidade de resolução de problemas do modelo maior para o menor. No entanto, como Wang et al. (2025a) observam, a eficácia depende criticamente de como as saídas do modelo de raciocínio são estruturadas e utilizadas no SFT, e pode haver trade-offs, por exemplo, entre melhorar o raciocínio e manter as habilidades conversacionais.

Apesar desses avanços na redução da CompL, o ajuste fino, mesmo com QLoRA em modelos GGUF, permanece um processo complexo Humano-no-Loop (HITL). Ele exige supervisão humana vultosa para curar dados, projetar prompts, definir hiperparâmetros (incluindo os específicos de LoRA/QLoRA), monitorar o treinamento e avaliar a qualidade do modelo resultante (Amershi et al., 2014; Dudley e Kristensson, 2018). Essa necessidade de intervenção e julgamento humanos introduz a dimensão da Carga Cognitiva (CL) no processo, que é o foco central deste estudo.

2.3 Teoria da Carga Cognitiva (CLT) na Interação Humano-Computador

A Teoria da Carga Cognitiva (CLT), originada na psicologia educacional (Sweller, 1988, 1994; Gkintoni et al., 2025), fornece uma estrutura robusta para entender as limitações da memória de trabalho humana durante o processamento de informações e a aprendizagem. A memória de trabalho, um sistema de capacidade limitada (tipicamente retendo cerca de 7 ± 2 "chunks" de informação), é responsável por manter e manipular temporariamente informações para tarefas cognitivas complexas como raciocínio, compreensão e aprendizagem (Balconi et al., 2025). A CLT postula que a sobrecarga da memória de trabalho impede a aprendizagem e o desempenho eficazes. Ela distingue três tipos de carga que são aditivas (Paas et al., 2003; Duran et al., 2022; Sweller et al., 1998):

● Carga Intrínseca (ICL): A dificuldade inerente determinada pelo número de elementos de informação interativos que devem ser processados simultaneamente na memória de trabalho, relativa à expertise do aprendiz (Sweller e Chandler, 1994; Sweller, 2010, 2024). No contexto do ajuste fino de LLMs GGUF, a ICL é influenciada pela complexidade conceitual da tarefa de ajuste fino em si (entender QLoRA, arquiteturas LLM, métricas de avaliação), pela complexidade da tarefa de análise de dados subjacente para a qual o modelo está sendo ajustado, e, fulcralmente neste estudo, pela interatividade inerente aos modelos quantizados. Modelos agressivamente quantizados (como os Q4) podem exibir comportamentos menos previsíveis, gerar saídas de menor qualidade (Marjanović et al., 2025). Interpretar essas saídas, diagnosticar falhas de treinamento e decidir sobre os próximos passos exige que o operador processe mais elementos interativos e incertos simultaneamente, aumentando a ICL. Além disso, ao gerenciar fluxos de trabalho multi-agente, a complexidade da lógica do fluxo (dependências, passagem de contexto) e a necessidade de integrar resultados de múltiplos LLMs agenticamente relacionados (4) contribuem para a ICL gerencial (Kirschner et al., 2006).

● Carga Extrínseca (ECL): Esforço cognitivo imposto por fatores não essenciais à tarefa, frequentemente decorrentes de design instrucional ou de interface deficiente (Sweller e Chandler, 1994; Sweller, 1994). Em nossa plataforma CrossDebate, a ECL pode surgir de uma interface React mal projetada (difícil de navegar, informações mal apresentadas), desempenho lento do backend FastAPI (causando frustração e espera), configuração complexa e não intuitiva de parâmetros de ajuste fino (QLoRA) ou de fluxo de trabalho multi-agente, ou sobrecarga de informação devido a dados de monitoramento CL/CompL brutos e não processados (Doherty e Kelisky, 1979). A fricção na configuração e uso de ferramentas externas via protocolos como MCP (Ghosh, 2025) ou a dificuldade em visualizar e depurar fluxos de trabalho complexos (por exemplo, sem representações gráficas adequadas) também podem adicionar ECL significativa. Minimizar a ECL é um objetivo primário do design instrucional e de interface, pois ela consome recursos da memória de trabalho que poderiam ser usados para lidar com a ICL ou para a aprendizagem (GCL).

● Carga Germânica (GCL): A carga "produtiva" associada aos processos cognitivos de construção de esquemas (estruturas de conhecimento organizadas na memória de longo prazo), automação de procedimentos e compreensão profunda (Sweller, 2010; Sweller et al., 1998). No nosso contexto, a GCL está envolvida quando o operador investe esforço mental para entender por que um determinado nível de quantização afeta o desempenho de uma maneira específica, como os parâmetros QLoRA interagem, quais estratégias de ajuste fino são mais eficazes para um determinado tipo de tarefa, ou como interpretar padrões complexos nos dados de monitoramento CL/CompL para otimizar o processo. A GCL é considerada desejável, pois leva à aprendizagem e ao desenvolvimento de expertise.

A CLT sugere que o design de sistemas interativos, como nossa plataforma CrossDebate, deve visar gerenciar a ICL (tornando a complexidade inerente mais tratável, através de decomposição ou abstração), minimizar a ECL (através de design de interface claro, eficiente e intuitivo) e otimizar a GCL (incentivando o esforço mental produtivo, fornecendo feedback útil e oportunidades para reflexão) para facilitar o desempenho eficaz e a aprendizagem (Mayer e Moreno, 2003; van Merriënboer e Sweller, 2005). O ajuste fino local de GGUF e a orquestração de agentes são tarefas cognitivamente exigentes, tornando a CLT altamente relevante para analisar a experiência do operador e otimizar o design da plataforma. O efeito de expertise reversa (Kalyuga et al., 2003; Sweller, 2024) também é pertinente: abordagens de design ou níveis de suporte que são úteis para iniciantes (por exemplo, orientação passo a passo) podem impor ECL desnecessária a especialistas, que já possuem esquemas bem desenvolvidos. Isso destaca a necessidade de adaptação baseada na expertise do usuário. Estudos em neurociência educacional (Gkintoni et al., 2025, Orovas et al., 2024) corroboram a importância de gerenciar a carga cognitiva para otimizar a eficácia da aprendizagem, conectando os princípios da CLT a mecanismos neurais subjacentes, como a atividade em redes frontoparietais associadas à memória de trabalho.

2.4 Medindo a Carga Cognitiva

Avaliar empiricamente a CL é fulcral para entender a experiência do usuário, identificar gargalos cognitivos e otimizar o design do sistema. Os métodos de medição da CL geralmente se enquadram em três categorias principais, cada uma com suas vantagens e desvantagens (Paas et al., 1994; Cain, 2007; Ahmad et al., 2023; Iarlori et al., 2024):

● Medidas Subjetivas: Questionários de autorrelato são o método mais comum. Instrumentos como o NASA Task Load Index (NASA-TLX) (Hart e Staveland, 1988) avaliam múltiplas dimensões da carga percebida (demanda mental, física, temporal, desempenho, esforço, frustração). Escalas mais simples, como algumas Single Ease Question (SEQ) baseadas na escala de Paas (Paas, 1992), pedem uma única classificação do esforço mental percebido. Essas medidas são fáceis de implementar, de baixo custo e capturam a experiência consciente do usuário. No entanto, são retrospectivas (geralmente aplicadas após a tarefa), podem ser influenciadas por vieses de resposta (desejabilidade social, efeito de halo) e podem não refletir flutuações momentâneas na carga.

● Medidas de Desempenho: Métricas objetivas baseadas no desempenho da tarefa primária (como o tempo para completar a tarefa, o número de erros e a precisão da solução) ou em uma tarefa secundária (cujo desempenho se espera que degrade sob alta carga na tarefa primária) podem refletir indiretamente a CL. A lógica é que, à medida que a CL aumenta e se aproxima da capacidade da memória de trabalho, o desempenho tende a diminuir. Essas medidas são objetivas e relevantes para o resultado da tarefa. Contudo, podem ser confundidas por outros fatores, como a estratégia do participante, habilidade, motivação ou fadiga. Além disso, o desempenho pode permanecer estável sob carga crescente até um certo ponto, pois os usuários podem compensar aumentando o esforço (o que seria refletido em medidas subjetivas ou fisiológicas).

● Medidas Neurofisiológicas: Indicadores objetivos e frequentemente contínuos do estado cognitivo e afetivo, derivados de sinais fisiológicos capturados por sensores não invasivos. Essas medidas oferecem o potencial de avaliação em tempo real da CL, sem interromper a tarefa primária, e podem capturar aspectos da carga que não são acessíveis à introspecção consciente. No entanto, requerem hardware especializado, processamento de sinal complexo e interpretação cuidadosa, pois os sinais fisiológicos podem ser influenciados por múltiplos fatores (físicos, emocionais, cognitivos). As modalidades mais relevantes para a medição da CL incluem:

○ Oculometria (Rastreamento Ocular/POG): A dilatação da pupila (aumento do diâmetro pupilar) é um indicador bem estabelecido de esforço mental e carga cognitiva (Beatty e Lucero-Wagoner, 2000; Kahneman e Beatty, 1966; Ma et al., 2024; Belda-Lois, 2024; Balconi et al., 2025). Métricas de movimento ocular, como duração e frequência de fixações (especialmente em áreas de interesse - AOIs - relevantes na interface), frequência e amplitude de sacadas, e taxa de piscadas, também fornecem insights sobre alocação de atenção visual, busca de informações e carga de processamento (Rayner, 1998; Holmqvist et al., 2011; Ahmad et al., 2023; Blackmore et al., 2024). Por exemplo, fixações mais longas podem indicar maior dificuldade no processamento de informações em uma AOI específica.

○ Eletroencefalografia (EEG): Mudanças na atividade elétrica do cérebro, particularmente na potência de diferentes bandas de frequência, são correlatos estabelecidos da carga da memória de trabalho e do engajamento mental. Um padrão comum associado ao aumento da CL é um aumento na potência da banda Teta (aproximadamente 4-8 Hz) na região frontal do córtex e uma diminuição na potência da banda Alfa (aproximadamente 8-12 Hz) na região parietal (Kramer, 1991; Gevins e Smith, 2000; Klimesch, 1999; Yu et al., 2024; Orovas et al., 2024, Balconi et al., 2025, Hassan et al., 2020). A análise de EEG requer expertise considerável para pré-processamento (remoção de artefatos de movimento, piscadas, etc.) e extração de características, mas oferece uma janela direta para a atividade neural subjacente aos processos cognitivos. Estudos como (Orovas et al., 2024) e (Balconi et al., 2025) demonstram a aplicação de EEG para avaliar CL em tarefas complexas, incluindo ambientes educacionais e de tomada de decisão.

○ Medidas Cardiovasculares (PPG): A Variabilidade da Frequência Cardíaca (HRV), que quantifica a variação nos intervalos de tempo entre batimentos cardíacos consecutivos, é sensível ao estado do sistema nervoso autônomo e, por extensão, ao estresse e à carga mental. Uma HRV reduzida (particularmente menor potência na banda de alta frequência - HF, que reflete a atividade parassimpática, e/ou uma maior razão LF/HF, indicando um deslocamento para a dominância simpática) está frequentemente associada a maior CL, estresse e esforço mental (Hjortskov et al., 2004; Ma et al., 2024; Yu et al., 2024; Belda-Lois, 2024; Iarlori et al., 2024, Blackmore et al., 2024). A fotopletismografia (PPG), medida por sensores ópticos em smartwatches, permite estimar a HRV de forma não invasiva. A análise de HRV requer janelas de tempo apropriadas (geralmente minutos) e tratamento cuidadoso de artefatos.

○ Saturação Periférica de Oxigênio (SpO2): Medida também por sensores PPG, a SpO2 reflete a porcentagem de hemoglobina oxigenada no sangue periférico. Embora sua relação direta com a CL seja menos estabelecida do que a da HRV ou pupilometria, algumas pesquisas sugerem que flutuações na SpO2 podem ocorrer sob estresse fisiológico ou esforço mental sustentado, possivelmente devido a mudanças na respiração ou na demanda metabólica (Grassmann et al., 2016; Traunmueller et al., 2024). No entanto, sua utilidade como indicador de CL requer validação contextual cuidadosa.

A abordagem mais robusta para medir a CL envolve a triangulação, ou seja, a combinação de múltiplas medidas de diferentes categorias (subjetivas, de desempenho e fisiológicas) (Brookings et al., 1996; Wilson e Russell, 2003; Blackmore et al., 2024). A convergência entre diferentes tipos de medidas aumenta a confiança nas conclusões, enquanto a divergência pode revelar aspectos mais sutis da experiência do usuário (por exemplo, um usuário pode relatar baixa carga subjetiva, mas mostrar sinais fisiológicos de esforço elevado, talvez devido à alta motivação). A escolha de sensores vestíveis e não invasivos (como os usados neste estudo: Tobii Eye Tracker 5, Muse 2, Samsung Watch5) é primordial para a validade ecológica (realismo da situação de medição) e o conforto do participante, minimizando a intrusividade da medição (Desai et al., 2022; Traunmueller et al., 2024). Bibliotecas como neurokit2 e mne-python (Makowski et al., 2021; Gramfort et al., 2013) são ferramentas essenciais para o processamento e análise desses sinais fisiológicos.

2.5 Métricas e Medição da Carga Computacional (CompL)

Paralelamente à CL humana, a Carga Computacional (CompL) quantifica a demanda imposta aos recursos de hardware do sistema durante a execução de tarefas computacionais. No contexto da execução local de LLMs GGUF e do ajuste fino QLoRA em hardware de consumidor, o gerenciamento da CompL é um fator crítico que determina a viabilidade, o desempenho e a eficiência energética do processo (Bai et al., 2024; Husom et al., 2025). As métricas chave para quantificar a CompL incluem:

● Uso de Memória: Principalmente o uso de Memória de Acesso Aleatório de Vídeo (VRAM) em GPUs e, secundariamente, a RAM do sistema (para operações na CPU ou descarregamento de tensores da GPU). O pico e a média de uso de VRAM são frequentemente o gargalo mais crítico, determinando o tamanho máximo do modelo LLM que pode ser carregado, o tamanho do lote (batch size) viável durante o ajuste fino e a possibilidade de executar múltiplos modelos concorrentemente em fluxos de trabalho multi-agente (Sanh et al., 2021; Rajbhandari et al., 2020; Zhao e Yaun, 2025; Jia et al., 2025). Ferramentas como nvidia-smi (para GPUs NVIDIA) e psutil (para RAM do sistema) são comumente usadas para monitoramento em tempo real. A quantização GGUF (especialmente Q4 vs Q8) tem um impacto direto e substancial nesta métrica.

● Taxa de Transferência Computacional: Mede a velocidade de processamento. Pode ser expressa em termos teóricos como Operações de Ponto Flutuante por Segundo (FLOPS) ou, de forma mais prática para LLMs, como Tokens por Segundo (TPS) durante a inferência (Jouppi et al., 2017; Bai et al., 2024; Lv et al., 2025). A latência de inferência (tempo para gerar o primeiro token, tempo por token subsequente) também é uma métrica de desempenho fulcral, especialmente para aplicações interativas (Husom et al., 2025, Jia et al., 2025). A quantização pode afetar a taxa de transferência de maneiras complexas: embora operações de menor precisão possam ser mais rápidas, a necessidade de gerar mais tokens para compensar a menor qualidade podem impactar a velocidade geral (Marjanović et al., 2025).

● Consumo de Energia: Mede a energia elétrica consumida pelo hardware (principalmente GPU e CPU) durante a computação. Geralmente reportado em Potência (Watts) instantânea ou média e Energia total (Watt-hora, kWh) consumida ao longo de uma tarefa (Schwartz et al., 2020; Garcia-Martin et al., 2019; Bai et al., 2024; Husom et al., 2025). Esta métrica é primordial para avaliar a eficiência energética, os custos operacionais e a pegada de carbono da computação de IA local. Ferramentas como nvidia-smi podem reportar o consumo de energia da GPU, e bibliotecas como CodeCarbon (Lacoste et al., 2020) podem estimar as emissões de carbono associadas. A quantização geralmente leva a uma redução no consumo de energia devido à menor movimentação de dados e, potencialmente, operações de menor energia (Husom et al., 2025).

● Utilização de Hardware: Percentual de utilização de recursos chave como a largura de banda da RAM e VRAM. Métricas como % de utilização de FLOPS (Tensor Core utilization em GPUs NVIDIA) e % de utilização da largura de banda de memória podem ajudar a identificar se a computação é limitada pela capacidade de cálculo (compute-bound) ou pela velocidade de acesso à memória (memory-bound) (Gregg, 2020). Isso informa estratégias de otimização.

● Métricas Térmicas: Temperatura dos componentes chave (GPU, CPU) em graus Celsius (°C). Temperaturas excessivas podem levar ao estrangulamento térmico (thermal throttling), onde o hardware reduz sua velocidade de clock para evitar superaquecimento, impactando negativamente o desempenho. O monitoramento térmico (via nvidia-smi) é importante para garantir a operação estável e sustentada, especialmente durante tarefas longas como o ajuste fino (Bai et al., 2024; Husom et al., 2025).

O monitoramento contínuo e integrado dessas métricas de CompL (por exemplo, usando psutil e scripts que consultam nvidia-smi periodicamente, como implementado no backend FastAPI do CrossDebate) é essencial para entender os gargalos do sistema, otimizar a configuração (por exemplo, escolher o nível de quantização GGUF apropriado, ajustar o tamanho do lote QLoRA) e, fulcralmente para este estudo, analisar sua interação com a CL do operador humano.

2.6 Fluxos de Trabalho Multi-Agente, Enxames de Agentes e Orquestração

A análise de dados moderna e a resolução de problemas complexos frequentemente se beneficiam da decomposição de tarefas em etapas menores e mais gerenciáveis, cada uma tratada por um modelo especializado (Heer e Shneiderman, 2012). No domínio dos LLMs, isso levou à exploração de sistemas multi-agente, onde múltiplos LLMs, possivelmente com diferentes especializações, colaboram para atingir um objetivo comum (Wu et al., 2023; Park et al., 2023; Callaghan et al., 2021; Truong et al., 2023; Luo et al., 2025a; Liu et al., 2025).

O conceito de "agente" de IA, popularizado recentemente, refere-se a um sistema alimentado por LLM que pode realizar tarefas de forma autônoma em nome de um usuário (OpenAI, 2025; Zhuge et al., 2024). Esses agentes tipicamente possuem três componentes principais (OpenAI, 2025): (1) um Modelo (LLM) para raciocínio e tomada de decisão; (2) Ferramentas (APIs, funções, ou até outros agentes) que permitem interagir com o mundo externo para coletar informações ou realizar ações; e (3) Instruções (prompts) que definem o objetivo, o comportamento e as restrições do agente. Agentes são particularmente adequados para workflows que envolvem interações conversacionais, manipulação de dados não estruturados ou tomada de decisão complexa (OpenAI, 2025).

Gerenciar um "enxame" de agentes LLM diversos (como 30 Q4 e 30 Q8 em nosso estudo) para realizar tarefas complexas de análise de dados apresenta desafios significativos de orquestração. A orquestração envolve definir o fluxo de trabalho (quais agentes são chamados, em que ordem, com quais dados), gerenciar a execução (iniciar/parar agentes, lidar com falhas), facilitar a comunicação e a passagem de contexto entre agentes, e integrar os resultados finais. Frameworks como LangChain (LangChain, 2023), LlamaIndex (Liu, 2022), CrewAI (CrewAI, 2024) e AutoGen (Wu et al., 2023; Luo et al., 2025b) fornecem abstrações e ferramentas para construir e executar esses fluxos de trabalho multi-agente, permitindo definir hipergrafos entre agentes. Padrões de orquestração comuns incluem (OpenAI, 2025):

● Agente Único com Ferramentas: Um único LLM usa múltiplas ferramentas conforme necessário.

● Padrão Gerente (Manager Pattern): Um LLM "gerente" central coordena múltiplos agentes especializados, tratando-os como ferramentas. O gerente delega tarefas e sintetiza resultados.

● Padrão Descentralizado (Handoff): Múltiplos agentes operam como pares, passando o controle da execução ("handoff") um para o outro com base em suas especializações, sem um controlador central.

Em nosso sistema CrossDebate, o backend FastAPI atua como o orquestrador, gerenciando a execução dos 60 agentes GGUF (via llama-cpp-python) com base em configurações de fluxo de trabalho definidas pelo usuário através da interface React. A integração de ferramentas externas (como acesso sistemas de arquivos locais) pode ser padronizada usando protocolos como o Model Context Protocol (MCP) (Ghosh, 2025, Ahmadi et al., 2024, Wijaya et al., 2025), que visa fornecer uma interface comum para que os LLMs interajam com recursos externos de forma segura e estruturada, embora questões de privacidade permaneçam (Radosevich et al., 2025).

Para tarefas que exigem conhecimento externo, técnicas como Retrieval-Augmented Generation (RAG) (Lewis et al., 2020; Gao et al., 2023; Ranaldi et al., 2025, Vaithilingam et al., 2025, Elnaggar et al., 2025) são essenciais para fundamentar as respostas dos agentes em informações factuais recuperadas de bases de conhecimento. Abordagens mais avançadas como GraphRAG (Edge et al., 2024; Peng et al., 2024; Zou et al., 2025; Han et al., 2024; Sharma et al., 2024) utilizam grafos de conhecimento para melhorar a recuperação e a síntese de informações complexas e inter-relacionadas. A representação da estrutura do fluxo de trabalho em si também pode se tornar complexa, especialmente com interações não lineares. O uso de hipergrafos (Feng et al., 2023, 2024; Brown et al., 2025; Tang et al., 2023; Nguyen e Mamitsuka, 2022; Pena-Pena et al., 2024) e bibliotecas como hypernetx (Lambiotte et al., 2019) oferece uma maneira de modelar essas relações de ordem superior entre múltiplos agentes. Além disso, modelar explicitamente o processo de raciocínio dos agentes, usando abordagens como Hypergraphs of Thought (HoT) (Wang et al., 2025a; Cai et al., 2024), pode ajudar a entender e gerenciar a complexidade interna dos próprios agentes.

No entanto, a implementação desses fluxos de trabalho multi-agente em hardware local com recursos limitados amplifica significativamente tanto a CL gerencial quanto a CompL agregada. A CL aumenta devido à necessidade do operador humano configurar o fluxo (selecionar agentes, definir conexões, parâmetros), monitorar a execução distribuída (rastrear o progresso e possíveis falhas em múltiplos agentes), depurar interações complexas e integrar os resultados parciais em uma resposta final coerente (Salvucci e Taatgen, 2008; Borst et al., 2015; Pope et al., 1995; Kwon et al., 2023). A CompL agregada aumenta porque múltiplos modelos LLM podem precisar ser carregados na VRAM (sequencialmente ou, de forma mais exigente, em paralelo) e executados, consumindo ciclos de GPU/CPU e energia. O design da camada de orquestração (backend FastAPI) e da interface de usuário (frontend React) torna-se, portanto, primordial não apenas para a funcionalidade, mas também para mitigar a ECL associada ao gerenciamento desses sistemas complexos (Hollan et al., 2000). A visualização eficaz do fluxo de trabalho e do estado dos agentes é fundamental para reduzir a carga cognitiva do operador (Heer e Shneiderman, 2012).

2.7 A Interdependência da Carga Cognitiva e Computacional: Lacunas na Literatura

Sintetizando as seções anteriores, a premissa central desta pesquisa é a existência de uma interdependência profunda e dinâmica entre a CL do operador humano e a CompL do sistema durante o ajuste fino local e a operação de fluxos de trabalho GGUF multi-agente. Embora a pesquisa tenha avançado significativamente em áreas individuais como quantização de LLM (Jia et al., 2025, Husom et al., 2025), PEFT (Afrin et al., 2025), CLT (Sweller, 2010; Gkintoni et al., 2025), computação fisiológica para medição de CL (Iarlori et al., 2024, Orovas et al., 2024, Balconi et al., 2025), eficiência computacional (Bai et al., 2024; Husom et al., 2025), sistemas multi-agente (Luo et al., 2025a; OpenAI, 2025) e orquestração de fluxo de trabalho (Zhang et al., 2025a), existe uma lacuna vultosa em sua interseção.

Especificamente, falta uma investigação sistemática da interdependência dinâmica CL-CompL no contexto específico do ajuste fino local (QLoRA) e operação de fluxos de trabalho de LLM quantizados multi-agente (GGUF, especificamente Q4 vs Q8), particularmente dentro de sistemas projetados para monitoramento e adaptação em tempo real usando dados multimodais (fisiológicos e de sistema).

● Estudos de eficiência de LLM (quantização, PEFT, otimização de inferência) frequentemente focam exclusivamente em métricas de CompL (VRAM, latência, energia), negligenciando a experiência cognitiva do operador humano que precisa configurar, monitorar e interagir com esses sistemas (Husom et al., 2025; Jia et al., 2025; Dettmers et al., 2023). O "custo humano" da eficiência computacional, especialmente o aumento da CL ao lidar com modelos de menor qualidade, raramente é quantificado.

● Estudos de HCI e CLT aplicados à computação geralmente examinam a CL em relação ao design de interface, visualização de dados ou tarefas de aprendizado mais tradicionais (Mayer e Moreno, 2003; Duran et al., 2022; Iarlori et al., 2024). Eles raramente abordam as restrições específicas e severas de CompL impostas pelo hardware local ao executar tarefas de IA de ponta como o ajuste fino de LLMs, nem as complexidades cognitivas únicas da orquestração de sistemas multi-agente.

● Pesquisas sobre ajuste fino HITL (como RLHF (Ouyang et al., 2022; Stiennon et al., 2020) ou abordagens interativas (Amershi et al., 2014)) reconhecem o papel central do envolvimento humano, mas raramente quantificam a CL do operador de forma sistemática usando medidas fisiológicas ou a vinculam diretamente a escolhas de configuração que afetam a CompL (como o nível de quantização do modelo sendo ajustado ou avaliado).

● Estudos sobre sistemas multi-agente e orquestração de fluxo de trabalho frequentemente focam nos protocolos de comunicação e estratégias de colaboração entre os agentes (Wu et al., 2023; Hong et al., 2023; Luo et al., 2025a; OpenAI, 2025), negligenciando as implicações combinadas de CL e CompL para um orquestrador humano operando em um ambiente local com recursos limitados. A carga cognitiva de gerenciar o "enxame" e a carga computacional agregada no hardware local são raramente consideradas em conjunto.

● A aplicação da computação fisiológica para medir CL neste domínio específico e complexo (ajuste fino local, orquestração multi-agente) e sua integração com o monitoramento de CompL para informar o design de sistemas adaptativos é uma área nascente (Chiossi et al., 2023, Blackmore et al., 2024). A maioria dos estudos que usam medidas fisiológicas de CL o faz em contextos menos exigentes computacionalmente.

● A exploração do impacto de modelos de raciocínio (Marjanović et al., 2025) e o uso de suas saídas para treinar outros modelos (Wang et al., 2025a) no equilíbrio CL-CompL é uma área completamente nova. Como a complexidade adicional (e CompL) do raciocínio ou da destilação afeta a CL do operador que gerencia esses processos?

Nosso estudo, situado dentro de uma arquitetura de sistema concreta (CrossDebate: React/FastAPI, enxame de 60 GGUF Q4/Q8, monitoramento multimodal CL/CompL), visa diretamente essa lacuna multifacetada. Buscamos fornecer dados empíricos e uma estrutura integrada para analisar como as escolhas técnicas (quantização GGUF, complexidade do fluxo de trabalho multi-agente) impactam a experiência humana (CL medida fisiológica e subjetivamente) e o desempenho da tarefa, tudo dentro das restrições do hardware local, e como essa interação é modulada pela expertise do operador.

2.8 Conclusão da Revisão da Literatura

Esta revisão da literatura ressalta a convergência de várias tendências chave que definem o cenário atual da IA acessível: a democratização de LLMs poderosos através da quantização (GGUF) e runtimes locais (llama.cpp); a necessidade de ajuste fino (QLoRA) para especialização de tarefas, agora viável em hardware de consumidor; as demandas cognitivas inerentes impostas aos operadores humanos durante esses processos complexos (explicadas pela CLT); as restrições computacionais rigorosas do hardware local (VRAM, energia, etc.); e a mudança em direção a fluxos de trabalho complexos e multi-agente para lidar com tarefas sofisticadas de análise de dados e automação (OpenAI, 2025). A interação crítica, dinâmica e frequentemente não linear entre a capacidade cognitiva limitada do operador (CL) e a capacidade computacional limitada da máquina (CompL) durante o ajuste fino e a operação local de LLMs agenticamente relacionados (5) em formato GGUF permanece uma área mal compreendida, mas vital para o avanço da IA centrada no humano.

A literatura existente fornece fundamentos sólidos em cada campo constituinte – LLMs, PEFT, CLT, medição de CL, métricas de CompL, sistemas multi-agente – mas falha em integrá-los de forma abrangente para abordar os desafios específicos do gerenciamento da dinâmica CL-CompL em fluxos de trabalho de IA locais, complexos e com recursos limitados. Este estudo é motivado pela necessidade urgente de preencher essa lacuna, fornecendo dados empíricos rigorosos e uma estrutura conceitual integrada para analisar como as escolhas técnicas (quantização GGUF Q4 vs Q8, design de fluxo de trabalho via FastAPI) impactam a experiência humana (CL medida fisiológica e subjetivamente, visualizada via React), e vice-versa, considerando o papel moderador da expertise. Em última análise, esta pesquisa visa constituir o design de ferramentas e fluxos de trabalho de IA locais mais eficazes, eficientes e cognitivamente ergonômicos que respeitem tanto os limites cognitivos humanos quanto as realidades do hardware local, promovendo uma colaboração mais produtiva e sustentável entre humanos e máquinas inteligentes.

3. METODOLOGIA

Esta seção detalha o plano de pesquisa abrangente e rigoroso projetado para investigar sistematicamente a complexa e dinâmica interdependência entre a carga cognitiva humana (CL) e a carga computacional do sistema (CompL). O contexto específico desta investigação foi o ajuste fino local (utilizando QLoRA) e o gerenciamento de fluxos de trabalho multi-agente envolvendo um enxame heterogêneo de 60 modelos LLM no formato GGUF (especificamente, 30 baseados em arquiteturas como Phi/Mistral quantizados em Q4 e 30 em Q8), orquestrado através da plataforma CrossDebate com interface React e backend FastAPI. Esta plataforma integrou monitoramento psicofisiológico e computacional em tempo real em hardware de consumidor (GPUs NVIDIA RTX 3060/12GB e RTX 4050/6GB). Descrevemos a abordagem de pesquisa de métodos mistos, o quadro conceitual que guiou o estudo, a operacionalização precisa das variáveis independentes e dependentes, as características da amostra de participantes, os materiais e aparatos tecnológicos empregados, o procedimento experimental detalhado (ajustado para uma duração total de aproximadamente 60 minutos por participante) e o plano subsequente para análise de dados.

3.1 Abordagem e Desenho da Pesquisa

Para capturar a natureza multimodal e interdependente da interação humano-IA sob restrições de recursos locais, adotou-se um desenho experimental de métodos mistos convergente (Creswell e Clark, 2017). Esta abordagem foi considerada superior a métodos puramente quantitativos ou qualitativos isolados, pois permitiu a triangulação de dados de diferentes naturezas (subjetiva, fisiológica, comportamental, computacional, verbal), oferecendo uma compreensão mais holística, robusta e ecologicamente válida do fenômeno CL-CompL (Greene et al., 1989). A convergência de achados quantitativos (por exemplo, aumento significativo da potência Teta frontal no EEG sob condição Q4) e qualitativos (por exemplo, relatos verbais de dificuldade em interpretar saídas Q4) fortaleceu a validade das conclusões. Por outro lado, a dissonância entre diferentes fluxos de dados (por exemplo, baixa CL subjetiva, mas alta CL fisiológica) poderia revelar complexidades inesperadas, como o impacto da motivação, dignas de investigação adicional.

O componente quantitativo baseou-se em um desenho fatorial misto conduzido em um ambiente de laboratório controlado, utilizando duas estações de trabalho representativas de hardware de consumidor (uma com GPU NVIDIA RTX 3060/12GB e outra com RTX 4050/6GB, interligadas se necessário para simular tarefas paralelas). Os participantes realizaram tarefas representativas de ajuste fino (utilizando QLoRA (Dettmers et al., 2023; Afrin et al., 2025) em um dos 60 modelos GGUF disponíveis) e gerenciamento de fluxo de trabalho multi-agente (orquestrado pelo backend FastAPI, com interações definidas via interface React, inspiradas em padrões de agentes como os discutidos em (OpenAI, 2025)) sob manipulação sistemática das variáveis independentes:

● Nível de Quantização GGUF (Fator Intra-sujeitos): Dois níveis representando um trade-off chave entre CompL e qualidade/estabilidade do modelo: Q4 (quantização de 4 bits usando K-means, representando alta compressão) e Q8 (quantização de 8 bits, representando maior fidelidade dentro dos formatos quantizados comuns). A escolha de focar apenas nestes dois níveis (aplicados aos 30+30 modelos) foi uma decisão metodológica chave para permitir a investigação aprofundada dentro da restrição temporal de 60 minutos por sessão.

● Complexidade do Fluxo de Trabalho Multi-Agente (Fator Intra-sujeitos): Três níveis representando demandas crescentes de orquestração e CompL agregada: Agente Único (tarefa realizada por um único modelo GGUF), Multi-Agente Sequencial (pipeline linear envolvendo múltiplos agentes GGUF do enxame), e Multi-Agente Paralelo/Complexo (fluxo de trabalho com execução concorrente e/ou dependências não lineares entre múltiplos agentes GGUF).

● Expertise do Participante (Fator Entre-sujeitos): Dois níveis categorizados com base em experiência prévia: Iniciante e Especialista (em LLMs, ajuste fino, FastAPI e React).

O uso de fatores intra-sujeitos (Quantização, Complexidade do Fluxo) aumentou o poder estatístico ao permitir que cada participante servisse como seu próprio controle, reduzindo a variância de erro devido a diferenças individuais. O fator entre-sujeitos (Expertise) permitiu investigar sistematicamente como as diferenças individuais moderam a relação CL-CompL (H4). A ordem de apresentação das condições intra-sujeitos foi rigorosamente contrabalançada entre os participantes usando blocos permutados aleatórios para mitigar potenciais efeitos de ordem, como aprendizagem ou fadiga. Durante a execução das tarefas (detalhada na Seção 3.6), foram coletados continuamente múltiplos fluxos de dados quantitativos, sincronizados temporalmente com precisão de milissegundos usando LabStreamingLayer (LSL) (Kothe, 2014). Estes fluxos incluíram: indicadores de CL (subjetivos - NASA-TLX Adaptado, SEQ; fisiológicos - POG, EEG, PPG/HRV, SpO2), métricas de CompL (VRAM, utilização de GPU/CPU, energia, térmica) e medidas de resultado da tarefa (qualidade do modelo ajustado, sucesso/tempo do fluxo de trabalho).

O componente qualitativo empregou protocolos de pensamento em voz alta concorrentes (Ericsson e Simon, 1980; Van Someren et al., 1994) durante segmentos chave da tarefa (por exemplo, durante a configuração de um fluxo complexo ou a avaliação de uma saída de modelo Q4 particularmente problemática). Os participantes foram instruídos a verbalizar seus pensamentos, estratégias de resolução de problemas, pontos de confusão, frustrações e percepções sobre a interação CL-CompL enquanto realizavam a tarefa. Essas verbalizações foram gravadas em áudio e posteriormente transcritas. Além disso, logs detalhados de interação com a interface React (cliques, tempo em diferentes componentes, erros de entrada) foram registrados pelo sistema CrossDebate, fornecendo traços comportamentais complementares para análise qualitativa ou quantitativa.

A integração dos dados quantitativos e qualitativos ocorreu formalmente na fase de interpretação (ver Seção 6: Discussão), seguindo a lógica do desenho convergente (Creswell e Clark, 2017). Os achados quantitativos (relações estatísticas, efeitos principais, interações) foram explicados, contextualizados e enriquecidos pelos temas e narrativas emergentes da análise qualitativa. Reciprocamente, os achados qualitativos foram corroborados ou quantificados (em termos de frequência ou magnitude) pelos dados numéricos. Esta abordagem de métodos mistos foi considerada essencial para desvendar a complexa dinâmica CL-CompL, indo além de simples correlações para entender os mecanismos cognitivos e computacionais subjacentes e a experiência vivida pelos participantes ao interagir com esses sistemas de IA locais.

3.2 Quadro Conceitual

O quadro conceitual que guiou este estudo (elaborado na Introdução e Revisão da Literatura) integrou a Teoria da Carga Cognitiva (CLT) (Sweller, 1988; Sweller et al., 1998; Gkintoni et al., 2025), princípios de gerenciamento de recursos computacionais (Bai et al., 2024; Husom et al., 2025), conceitos de Interação Humano-Computador (HCI) (Nielsen, 1993; Norman, 1988) e IA centrada no humano (Xu, 2019). O cerne do quadro foi a modelagem explícita da interdependência CL-CompL como um ciclo de feedback dinâmico, mediado pela plataforma CrossDebate.

● CL (ICL, ECL, GCL): O quadro detalhou como cada tipo de carga se manifestaria no contexto específico do ajuste fino QLoRA dos modelos GGUF (Q4 vs Q8) e da orquestração dos fluxos de trabalho multi-agente. A ICL seria afetada pela qualidade e previsibilidade do modelo GGUF e pela complexidade inerente do fluxo. A ECL seria influenciada pelo design da interface React, pela eficiência do backend FastAPI e pela clareza das instruções e feedback do sistema. A GCL representaria o esforço produtivo para aprender sobre o processo e desenvolver estratégias eficazes. A minimização da ECL foi postulada como fulcral para liberar recursos cognitivos para lidar com a ICL e engajar-se em GCL (Mayer e Moreno, 2003; van Merriënboer e Sweller, 2005). A complexidade inerente ao raciocínio de modelos como DeepSeek-R1 (Marjanović et al., 2025), mesmo que não diretamente usada aqui, informa a potencial ICL ao interpretar saídas de modelos ajustados.

● CompL: O quadro definiu as métricas chave (VRAM, utilização de GPU/CPU, energia, térmica, latência) relevantes para o hardware local (RTX 3060/4050) e como elas seriam afetadas pelas manipulações experimentais (Quantização, Complexidade do Fluxo).

● Ciclo de Feedback CL-CompL: O quadro articulou explicitamente como as manipulações que afetam a CompL (por exemplo, escolher Q4 vs Q8) impactariam a CL do operador (H1, H2), e como o estado cognitivo do operador (CL, influenciado pela expertise, fadiga) poderia impactar suas decisões e ações (por exemplo, escolhas de configuração, estratégias de depuração), que, por sua vez, afetariam a CompL subsequente.

● Mediação do Sistema (CrossDebate): A plataforma CrossDebate foi posicionada como o mediador central neste ciclo. Sua arquitetura (React frontend, FastAPI backend) foi projetada para: (1) Sensoriar: Coletar dados multimodais em tempo real (CL fisiológica via LSL, CL subjetiva via questionários na interface, CompL via psutil/nvidia-smi no backend, interações via logs React/FastAPI). (2) Modelar: Processar e analisar esses dados para entender a relação CL-CompL atual. (3) Visualizar: Apresentar informações relevantes sobre CL, CompL e o estado do sistema/fluxo de trabalho ao operador através de dashboards na interface React. (4) Agir: Embora não totalmente implementado neste estudo, o quadro previu a capacidade futura do sistema de fornecer recomendações ou realizar adaptações (semi-)automáticas (por exemplo, ajustar parâmetros, sugerir mudanças no fluxo) para ajudar a manter o operador em um estado ótimo de CL-CompL. O design de agentes e sua orquestração (OpenAI, 2025) foram considerados parte integral desta mediação.

● Hipóteses: O quadro incorporou explicitamente as hipóteses centrais: H1 (trade-off Quantização-CL), H2 (impacto da Complexidade do Fluxo em CL e CompL), H3 (relação não linear CL-CompL, buscando um "ponto ideal") e H4 (moderação pela Expertise).

Este quadro conceitual forneceu uma base teórica sólida para derivar hipóteses testáveis, selecionar e operacionalizar variáveis, projetar o experimento e, primordialmente, interpretar os resultados de forma integrada, conectando observações empíricas a mecanismos cognitivos e computacionais subjacentes.

3.3 Variáveis

A operacionalização precisa das variáveis foi primordial para o rigor do estudo.

● Variáveis Independentes (VIs): Foram os fatores manipulados ou medidos para avaliar seus efeitos.

○ Nível de Quantização GGUF (Intra-sujeitos): Manipulado categoricamente em dois níveis: Q4 e Q8. Estes representam pontos distintos no trade-off CompL-qualidade/estabilidade. Q4 foi escolhido como um representante comum e eficaz de quantização de 4 bits, enquanto Q8 representa uma quantização de 8 bits mais conservadora, mas ainda eficiente em termos de memória em comparação com FP16. Esta VI foi aplicada aos 60 modelos GGUF disponíveis (30 de cada nível).

○ Complexidade do Fluxo de Trabalho Multi-Agente (Intra-sujeitos): Manipulado categoricamente em três níveis: Agente Único, Multi-Agente Sequencial, Multi-Agente Paralelo/Complexo. Estes níveis foram implementados através de configurações no backend FastAPI que definiam a estrutura de interação entre os agentes LLM selecionados do enxame para uma determinada tarefa de análise de dados. O nível de complexidade aumentava a carga de orquestração e a potencial CompL agregada. O design desses fluxos foi informado por padrões de agentes (OpenAI, 2025).

○ Expertise do Participante (Entre-sujeitos): Medida categoricamente como Iniciante ou Especialista. A categorização foi baseada na experiência auto-relatada com conceitos e ferramentas relevantes (LLMs, ajuste fino/PEFT, Python, GGUF/llama.cpp, React/FastAPI, gerenciamento de sistemas/hardware) e validada através de tarefas curtas de análise de desempenho em tarefas iniciais.

● Fatores Controlados: Para isolar os efeitos das VIs, vários fatores foram mantidos constantes dentro dos blocos experimentais: a tarefa específica de ajuste fino (por exemplo, classificação de sentimento em um dataset específico), o conjunto de dados usado, a arquitetura base do LLM (por exemplo, a maioria dos modelos GGUF eram variantes de Phi-4 ou Mistral-7B), os hiperparâmetros QLoRA (ranque r, alpha, taxa de aprendizado inicial, etc., mantidos consistentes para comparações diretas), o ambiente de hardware (mesma estação de trabalho para um dado participante) e software (versões fixas de bibliotecas e SO).

● Variáveis Dependentes (VDs): Foram as medidas coletadas para avaliar o impacto das VIs. Múltiplas VDs foram usadas para capturar CL e CompL de forma abrangente.

○ CL Subjetiva:

■ Escore Total Ponderado do NASA-TLX Adaptado (coletado pós-bloco). As subescalas de Demanda Mental, Esforço e Frustração foram de interesse particular.

■ Escore da Single Ease Question (SEQ) (1-7, coletado pós-bloco).

○ CL Fisiológica (processada e agregada por fase da tarefa):

■ POG (Tobii Eye Tracker 5): Diâmetro pupilar médio (normalizado pela linha de base), Duração média e Frequência de Fixações (total e em AOIs pré-definidas na interface React, como área de código, logs, visualizações), Frequência e Amplitude de Sacadas, Taxa de Piscadas.

■ EEG (Muse 2 - Fp1, Fp2, TP9, TP10): Potência relativa nas bandas Teta (4-8 Hz, especialmente frontal) e Alfa (8-12 Hz, especialmente parietal). Razões de banda (por exemplo, Teta/Alfa) também foram calculadas como indicadores de carga/engajamento. Processamento realizado com mne-python.

■ HRV (derivada do PPG do Samsung Watch5): Métricas no domínio do tempo (RMSSD - raiz quadrada média das diferenças sucessivas entre intervalos R-R) e no domínio da frequência (Potência nas bandas de Baixa Frequência - LF: 0.04-0.15 Hz, Alta Frequência - HF: 0.15-0.4 Hz, e a Razão LF/HF). Calculadas em janelas deslizantes (por exemplo, 1-2 minutos) usando NeuroKit2.

■ SpO2 (Samsung Watch5): Nível médio de saturação periférica de oxigênio (%).

○ CL Comportamental/Desempenho (derivada de logs de interação e sistema):

■ Tempo gasto em subtarefas específicas (por exemplo, configuração de parâmetros QLoRA, avaliação de saídas do modelo, depuração de erros).

■ Contagem de erros de interação (por exemplo, erros de configuração, cliques incorretos).

■ Frequência de uso de recursos de ajuda.

○ CompL (monitorada continuamente pelo backend FastAPI via psutil e nvidia-smi):

■ Pico e Média de uso de VRAM (GB).

■ Utilização média da GPU (%) e CPU (%).

■ Potência média consumida pela GPU (W) e Energia total estimada para a tarefa (kWh).

■ Temperatura pico e média da GPU (°C).

■ Latência de inferência (ms/token) ou taxa de transferência de ajuste fino (tokens/segundo).

○ Resultado da Tarefa:

■ Taxa de sucesso na conclusão da tarefa de ajuste fino (por exemplo, convergência alcançada).

■ Métricas de qualidade do modelo ajustado (por exemplo, Acurácia, F1, ROUGE, Perplexidade) avaliadas em um conjunto de teste mantido constante.

■ Qualidade do resultado do fluxo de trabalho (avaliada usando métricas específicas da tarefa de análise de dados).

A seleção de múltiplas VDs para CL permitiu a triangulação e uma avaliação mais robusta e multidimensional do construto. A coleta síncrona via LSL foi fundamental para permitir a análise da relação temporal entre flutuações na CL e na CompL durante diferentes fases das tarefas.

3.4 Participantes

Recrutou-se uma amostra diversificada de aproximadamente N=40 participantes, provenientes da comunidade acadêmica de Engenharia de Software da Universidade do Distrito Federal Professor Jorge Amaury Maia Nunes (UnDF) e da comunidade de tecnologia (desenvolvedores, cientistas de dados). A amostra foi estratificada por nível de expertise auto-relatado e validado (aproximadamente 20 Iniciantes e 20 Especialistas em LLMs, ajuste fino e desenvolvimento Python). Foi feito um esforço para balancear a amostra por gênero, na medida do possível, dentro de cada grupo de expertise.

Uma análise de poder estatístico a priori, realizada com o software G*Power (Faul et al., 2007), indicou que um tamanho de amostra de N=40 seria suficiente para detectar tamanhos de efeito médios (η²p ≈ 0.06 a 0.10) para os efeitos principais e interações de interesse nos modelos lineares generalizados mistos (GLMMs) planejados (ver Seção 4), com um poder estatístico de (1-β) = 0.80 e um nível alfa de α = 0.05, assumindo correlações moderadas (ρ ≈ 0.5) entre as medidas repetidas intra-sujeitos.

O recrutamento e a condução do estudo seguiram protocolos éticos rigorosos, aprovados pelo Comitê de Ética em Pesquisa da Universidade de Brasília. Todos os participantes forneceram consentimento informado por escrito antes do início do estudo. O termo de consentimento detalhava os objetivos da pesquisa, os procedimentos envolvidos (incluindo a coleta de dados fisiológicos não invasivos), os potenciais riscos e benefícios, as medidas de confidencialidade e o direito de retirar-se do estudo a qualquer momento sem penalidade. Foi enfatizado que os dados fisiológicos seriam usados exclusivamente para estimar a carga cognitiva e não para qualquer outro propósito diagnóstico. Todos os dados foram anonimizados usando códigos de identificação para proteger a privacidade dos participantes.

3.5 Materiais e Aparatos

Utilizou-se um ambiente de laboratório controlado com hardware e software padronizados para minimizar a variabilidade estranha e garantir a replicabilidade.

● Hardware: Conforme mencionado, duas estações de trabalho foram usadas como plataformas experimentais primárias, equipadas com:

○ GPU: NVIDIA GeForce RTX 3060 (12GB VRAM) em uma estação, NVIDIA GeForce RTX 4050 Laptop (6GB VRAM) na outra. A escolha destas GPUs visou representar hardware de consumidor comum e acessível, mas com capacidades distintas de VRAM, permitindo explorar o impacto das restrições de memória.

○ CPU, RAM, Armazenamento: Processadores e memória RAM adequados para suportar as tarefas (por exemplo, Intel Core i5/i7, 32GB+ RAM, SSD NVMe).

○ Sensores Neurofisiológicos:

■ Rastreador Ocular (POG): Tobii Eye Tracker 5, um dispositivo baseado em tela, montado abaixo do monitor, capaz de rastrear movimentos oculares e diâmetro pupilar com alta frequência (por exemplo, 60-120 Hz).

■ EEG: InteraXon Muse 2, um headset EEG de consumo com 4 eletrodos secos (posições aproximadas Fp1, Fp2, TP9, TP10) e um eletrodo de referência (Fpz). Embora tenha menor resolução espacial que sistemas de pesquisa, é não invasivo, fácil de configurar e demonstrou ser sensível a mudanças na carga cognitiva e no estado de atenção em estudos anteriores (Desai et al., 2022; Krigolson et al., 2017).

■ PPG/SpO2: Samsung Galaxy Watch5 (ou similar), um smartwatch comercial equipado com sensores PPG para medir a frequência cardíaca, a variabilidade da frequência cardíaca (HRV) e a saturação periférica de oxigênio (SpO2). A escolha desses sensores específicos foi baseada em um equilíbrio entre a qualidade dos dados fornecidos (validados na literatura para medição de correlatos de CL (Ma et al., 2024; Yu et al., 2024; Belda-Lois, 2024; Traunmueller et al., 2024)), a facilidade de uso e configuração no ambiente experimental, o conforto do participante, a disponibilidade comercial e a compatibilidade com o framework de sincronização LSL.

● Software: A pilha de software foi padronizada em ambas estações experimentais:

○ Sistema Operacional: KDE Neon 6.0.

○ Linguagem e Ambiente: Python 3.10+.

○ Plataforma CrossDebate:

■ Frontend: Aplicação React (v18+) com bibliotecas de UI (por exemplo, Material UI) e visualização (por exemplo, Plotly.js, Recharts).

■ Backend: API FastAPI (v0.100+) rodando com Uvicorn.

○ Bibliotecas LLM/PEFT: llama-cpp-python (para inferência GGUF), transformers, peft, accelerate, bitsandbytes, torch (para ajuste fino QLoRA), unsloth (para otimizações QLoRA).

○ Bibliotecas de Processamento Fisiológico: pylsl (para streaming de dados LSL), mne-python (para pré-processamento e análise de EEG), NeuroKit2 (para processamento de PPG/HRV e outros sinais fisiológicos).

○ Ferramentas de Monitoramento CompL: psutil (para CPU/RAM), scripts para consultar nvidia-smi (para GPU VRAM, Utilização, Energia, Temperatura).

○ Pacotes Estatísticos (para análise offline): pandas, numpy, scipy, statsmodels, pingouin, scikit-learn. Versões específicas de todas as bibliotecas críticas foram fixadas (usando conda environment.yml) para garantir a reprodutibilidade do ambiente de software.

● Modelos GGUF e Conjuntos de Dados:

○ Modelos: Um conjunto de 60 modelos GGUF pré-quantizados foi preparado, compreendendo 30 modelos no formato Q4 e 30 no formato Q8. Estes modelos eram variantes de arquiteturas abertas populares e eficientes, como Phi-4 e Mistral-7B, adequadas para execução local.

○ Conjuntos de Dados: Foram utilizados conjuntos de dados públicos e representativos para as tarefas de ajuste fino (por exemplo, datasets de código como CodeSearchNet para geração de código) e para as tarefas de análise de dados dos fluxos multi-agente. Os dados foram pré-processados e formatados adequadamente para o ajuste fino e a inferência. A possibilidade de usar dados gerados por modelos de raciocínio (Wang et al., 2025a) foi considerada para trabalhos futuros, mas não como a fonte primária de dados neste estudo.

A calibração cuidadosa dos sensores foi realizada no início de cada sessão experimental. Isso incluiu a calibração do rastreador ocular usando o software do fabricante para garantir a precisão do rastreamento do olhar e da medição da pupila, e a verificação da qualidade do sinal dos eletrodos do EEG (verificação de impedância, se suportado pelo dispositivo) e do sensor PPG (garantir bom contato com a pele). Uma gravação de linha de base fisiológica em repouso foi realizada para permitir a normalização dos dados fisiológicos subsequentes.

3.6 Procedimento Experimental

O procedimento experimental foi cuidadosamente desenhado e padronizado para guiar os participantes através das diferentes condições experimentais, coletar dados de forma consistente e, fulcralmente, garantir que a duração total da sessão para cada participante girasse em torno de 60 minutos.

1. Preparação e Consentimento (≈ 10 minutos):

● Chegada do participante, recepção e breve explicação geral do estudo.

● Leitura e assinatura do Termo de Consentimento Livre e Esclarecido.

● Preenchimento de um questionário demográfico e de avaliação de expertise (auto-relato sobre experiência com LLMs, ajuste fino, Python, GGUF, React/FastAPI).

● Colocação e ajuste dos sensores fisiológicos (headset EEG, smartwatch PPG/SpO2).

● Posicionamento do participante em frente à estação de trabalho e calibração do rastreador ocular (Tobii).

● Verificação inicial da qualidade dos sinais fisiológicos.

● Gravação de uma linha de base fisiológica curta (≈ 3-4 minutos) com o participante em repouso, olhando para uma tela neutra.

2. Treinamento e Familiarização (≈ 5 minutos):

● Breve introdução à interface React da plataforma CrossDebate, destacando as principais áreas de interação (configuração, monitoramento, visualização).

● Visão geral concisa das tarefas a serem realizadas (ajuste fino de um modelo GGUF usando QLoRA, gerenciamento de um fluxo de trabalho multi-agente).

● Explicação rápida dos conceitos chave (Quantização GGUF Q4/Q8, Complexidade do Fluxo).

● Instruções sobre o protocolo de pensamento em voz alta (se aplicável a segmentos específicos).

3. Blocos Experimentais (≈ 40 minutos no total):

● Os participantes completaram um número definido de blocos de tarefas, correspondentes às condições experimentais intra-sujeitos (Nível de Quantização x Complexidade do Fluxo de Trabalho). A ordem dos blocos foi contrabalançada entre os participantes.

● Dentro de cada bloco, o participante realizava uma tarefa específica definida pelo desenho experimental (por exemplo, Bloco 1: Ajustar um modelo Q4 em uma tarefa de agente único; Bloco 2: Gerenciar um fluxo multi-agente paralelo usando modelos Q8).

● As tarefas envolviam interagir com a interface CrossDebate para: selecionar modelos GGUF do enxame, configurar parâmetros de ajuste fino QLoRA ou de fluxo de trabalho, iniciar a execução, monitorar o progresso (através de logs, métricas de CompL e visualizações de CL fornecidas pela plataforma), avaliar a qualidade das saídas e tomar decisões para refinar o processo.

● Durante toda a duração dos blocos experimentais, os dados fisiológicos (POG, EEG, PPG/HRV, SpO2), as métricas de CompL (VRAM, CPU/GPU util, energia, temp) e os logs de interação com a interface foram registrados continuamente e sincronizados via LSL.

● Em segmentos pré-determinados e curtos (para não exceder o tempo), os participantes foram solicitados a pensar em voz alta.

● O número e a duração das tarefas dentro destes 40 minutos foram cuidadosamente calibrados durante estudos piloto para garantir a viabilidade temporal. Por exemplo, em vez de um ajuste fino completo, poderia ser solicitado avaliar um número limitado de saídas.

4. Avaliações Pós-Bloco (≈ 5 minutos no total):

● Imediatamente após a conclusão de cada bloco principal de tarefas (ou no final da fase experimental de 40 minutos), os participantes completaram o questionário NASA-TLX Adaptado e a SEQ, referentes à(s) condição(ões) que acabaram de experienciar. Isso foi feito diretamente na interface. O tempo foi estritamente gerenciado para esta fase.

5. Finalização e Debriefing (Tempo Mínimo/Pós-Sessão):

● Remoção dos sensores.

● Agradecimento ao participante pela sua contribuição.

● Oportunidade para perguntas finais. Um debriefing mais detalhado sobre os objetivos específicos e hipóteses poderia ser fornecido por escrito após a sessão para economizar tempo.

Este procedimento rigorosamente cronometrado e padronizado visou maximizar a coleta de dados relevantes dentro da restrição de 60 minutos, mantendo o engajamento do participante e minimizando a fadiga, ao mesmo tempo que permitia a manipulação controlada das variáveis independentes e a medição confiável das variáveis dependentes.

3.7 Medição de Dados

Conforme detalhado na Seção 3.3 (Variáveis Dependentes), múltiplos fluxos de dados foram coletados para operacionalizar CL, CompL e resultados da tarefa. A sincronização temporal precisa via LSL foi um aspecto metodológico fundamental. Cada fluxo de dados (EEG, PPG, POG, eventos do sistema, logs de interação, métricas de CompL) recebeu timestamps LSL comuns, permitindo o alinhamento exato de eventos cognitivos (detectados fisiologicamente ou subjetivamente) com eventos do sistema (início/fim de épocas de ajuste fino, chamadas de API no FastAPI, erros de CompL) e ações do usuário (interações na interface React).

Isso permitiu análises por fase da tarefa. Por exemplo, foi possível calcular a CL fisiológica média e o pico de VRAM especificamente durante a fase de "avaliação de saída do modelo Q4" versus a fase de "configuração de parâmetros QLoRA", permitindo investigar como diferentes subtarefas impactavam o conjunto CL-CompL.

O pré-processamento rigoroso dos sinais fisiológicos brutos foi essencial para extrair características significativas e remover artefatos. Pipelines de processamento padronizados foram implementados usando mne-python para EEG (filtragem, rejeição de segmentos ruidosos, cálculo de potência espectral) e NeuroKit2 para PPG/HRV (detecção de picos R, cálculo de métricas HRV no domínio do tempo e da frequência, filtragem de SpO2). Da mesma forma, os dados brutos de rastreamento ocular foram processados para extrair métricas de fixação, sacada e diâmetro pupilar, usando a biblioteca PyGaze. Os dados de CompL foram registrados pelo backend FastAPI em intervalos regulares (por exemplo, a cada 1-5 segundos) e agregados (média, pico) por fase da tarefa.

3.8 Rigor e Validade

Foram tomadas medidas proativas ao longo do desenho e execução do estudo para maximizar o rigor metodológico e abordar potenciais ameaças à validade dos resultados.

● Validade Interna: Refere-se à confiança de que as relações observadas entre VIs e VDs são causais. Foi fortalecida através de:

● Controle Experimental: Padronização de tarefas, hardware, software e procedimentos.

● Manipulação Sistemática: VIs (Quantização, Fluxo) foram diretamente manipuladas pelo pesquisador.

● Contrabalanceamento: Mitigou efeitos de ordem para os fatores intra-sujeitos.

● Medição de Covariáveis: Medição da expertise como fator entre-sujeitos para controlar seu efeito.

● Validade de Construto: Refere-se à adequação da operacionalização das variáveis teóricas (CL, CompL, Expertise). Foi fortalecida através de:

● Triangulação: Uso de múltiplas medidas (subjetivas, fisiológicas, comportamentais) para CL.

● Instrumentos Estabelecidos: Uso do NASA-TLX Adaptado e de correlatos fisiológicos de CL bem documentados na literatura.

● Métricas Diretas: Uso de métricas de sistema padrão e diretas para CompL (VRAM, Utilização, Energia).

● Operacionalização Clara: Definição precisa dos níveis de Expertise e Complexidade do Fluxo.

● Validade Externa (Generalização): Refere-se à aplicabilidade dos achados a outros contextos, populações e tempos. Foi considerada através de:

● Representatividade: Escolha de tarefas (ajuste fino QLoRA, gerenciamento de fluxo multi-agente), modelos (GGUF Q4/Q8 de arquiteturas populares), hardware (GPUs de consumidor comuns) e participantes (incluindo iniciantes e especialistas) que refletem cenários realistas de uso de IA local.

● Limitações Reconhecidas: A natureza controlada do ambiente de laboratório limita a generalização direta para ambientes de trabalho completamente não estruturados. Os resultados são específicos para os modelos, tarefas e hardware testados, embora os princípios subjacentes da interação CL-CompL devam ser mais gerais.

● Confiabilidade: Refere-se à consistência e replicabilidade das medidas e procedimentos. Foi assegurada através de:

● Padronização: Procedimentos experimentais e instruções idênticas para todos os participantes (dentro de cada condição).

● Registro Automatizado: Coleta de dados fisiológicos, de CompL e de interação realizada automaticamente pelo sistema.

● Processamento Padronizado: Uso de pipelines de análise de dados e processamento de sinais bem definidos e documentados (usando bibliotecas padrão).

● Análise Replicável: Planejamento de análises estatísticas usando métodos padrão (GLMMs) e software estabelecido.

Apesar dessas medidas, limitações inerentes foram reconhecidas. A interpretação de sinais fisiológicos como indicadores de CL é complexa e pode ser influenciada por fatores individuais e contextuais não controlados. O ambiente de laboratório, embora controlado, difere de um ambiente de trabalho real. A amostra, embora diversificada em termos de expertise, foi limitada em tamanho e demografia. Essas limitações serão consideradas cuidadosamente na interpretação e discussão dos resultados (Seção 6 e 7).

Esta metodologia detalhada, de métodos mistos e rigorosamente controlada, foi projetada para fornecer uma investigação válida, confiável e matizada da complexa interação CL-CompL no domínio prático e relevante do gerenciamento local de LLMs GGUF através da plataforma CrossDebate, dentro de uma restrição temporal realista de 60 minutos por participante.

4. ANÁLISE DE DADOS

Esta seção descreve o plano detalhado e sistemático para analisar os dados multimodais coletados através da metodologia de métodos mistos descrita na Seção 3. O objetivo central da análise foi abordar as questões de pesquisa e testar formalmente as hipóteses sobre a interdependência dinâmica entre a Carga Cognitiva (CL) humana e a Carga Computacional (CompL) do sistema. Este processo ocorreu no contexto específico do ajuste fino local (QLoRA) e do gerenciamento de fluxos de trabalho multi-agente envolvendo o enxame de 60 modelos LLM (30 Q4, 30 Q8), orquestrados pela plataforma CrossDebate (React/FastAPI) em hardware de consumidor. O plano analítico abrangeu desde a preparação e limpeza dos dados sincronizados via LSL até análises descritivas, inferenciais (utilizando principalmente Modelos Lineares Generalizados Mistos - GLMMs para lidar com a estrutura aninhada dos dados), análises de correlação e regressão (incluindo modelagem não linear para investigar H3), análise qualitativa dos protocolos de pensamento em voz alta (via Análise Temática) e, primordialmente, a integração sistemática dos achados quantitativos e qualitativos para uma interpretação holística e rica do fenômeno CL-CompL.

4.1 Visão Geral da Estratégia Analítica

A análise seguiu um desenho convergente de métodos mistos (Creswell e Clark, 2017; Greene et al., 1989). Neste desenho, os dados quantitativos (fisiológicos: POG, EEG, HRV, SpO2; subjetivos: NASA-TLX Adaptado, SEQ; comportamentais: logs de interação; CompL: VRAM, GPU/CPU util, energia, temp; desempenho da tarefa) e qualitativos (transcrições dos protocolos de pensamento em voz alta) foram coletados simultaneamente durante as sessões experimentais de 60 minutos. Subsequentemente, foram analisados separadamente usando técnicas apropriadas para cada tipo de dado. Finalmente, os resultados das análises quantitativa e qualitativa foram formalmente mesclados, comparados e integrados durante a fase de interpretação (principalmente na Seção 6: Discussão).

Esta abordagem de triangulação permitiu que os pontos fortes de um tipo de dado compensassem as fraquezas do outro, levando a conclusões mais robustas e a uma compreensão mais profunda e matizada da interação CL-CompL. Por exemplo, um aumento estatisticamente significativo em um indicador fisiológico de CL (quantitativo) poderia ser explicado por temas emergentes da análise qualitativa que descrevem dificuldades específicas de interpretação ou frustração com o sistema. A estratégia analítica compreendeu as seguintes etapas principais:

1. Preparação e Limpeza de Dados: Transformação dos dados brutos multimodais e sincronizados via LSL em um formato estruturado, limpo e confiável, abordando questões como dados ausentes, outliers, sincronização temporal e agregação de dados fisiológicos e de CompL em épocas significativas.

2. Análise Quantitativa Descritiva: Sumarização das características centrais dos dados de CL, CompL e desempenho através de estatísticas descritivas (médias, medianas, desvios padrão, etc.) e visualizações (histogramas, boxplots, gráficos de barras) para obter uma visão geral inicial dos padrões e distribuições, estratificados pelas variáveis independentes.

3. Análise Quantitativa Inferencial (Teste de Hipóteses): Utilização de Modelos Lineares Generalizados Mistos (GLMMs) como principal ferramenta estatística para testar formalmente as hipóteses H1 (efeito da Quantização), H2 (efeito da Complexidade do Fluxo) e H4 (moderação pela Expertise) sobre as variáveis dependentes (indicadores de CL, CompL, resultados da tarefa), controlando adequadamente a estrutura hierárquica e de medidas repetidas dos dados.

4. Análise de Correlação e Regressão (Investigação da Interdependência): Exploração da natureza da relação entre múltiplos indicadores de CL e CompL (abordando RQ3) e teste formal da hipótese de não linearidade (H3), utilizando correlações e modelos de regressão (incluindo termos polinomiais e Modelos Aditivos Generalizados Mistos - GAMMs).

5. Análise Qualitativa (Análise Temática): Aplicação da Análise Temática (Braun e Clarke, 2006) aos dados textuais (transcrições dos protocolos de pensamento em voz alta) para identificar, analisar e relatar padrões (temas) recorrentes relacionados às experiências subjetivas, estratégias cognitivas, desafios percebidos e interpretações dos participantes sobre a interação CL-CompL e o uso da plataforma CrossDebate.

6. Integração de Métodos Mistos: Síntese sistemática dos achados quantitativos e qualitativos na fase de discussão para fornecer uma interpretação coerente, contextualizada e abrangente. Isso envolveu usar os resultados de um método para explicar, expandir ou refinar os resultados do outro, buscando convergência, complementaridade ou explicando dissonâncias.

4.2 Preparação e Limpeza de Dados

Esta fase inicial e crítica foi fundamental para garantir a qualidade, a integridade e a adequação dos dados para as análises subsequentes, seguindo as melhores práticas em pré-processamento de dados multimodais e de séries temporais (Hair et al., 2010; Pyle, 1999; Keogh e Kasetty, 2003).

1. Agregação, Estruturação e Sincronização: Dados de fontes díspares (arquivos LSL contendo EEG, PPG, POG; logs do backend FastAPI registrando métricas de CompL e eventos do sistema; logs do frontend React registrando interações do usuário; arquivos de questionários pós-bloco; transcrições de áudio) foram reunidos. Um conjunto de dados de análise primário foi criado (usando a biblioteca pandas em Python), onde cada linha representava uma unidade de análise significativa (por exemplo, uma fase específica da tarefa como "configuração QLoRA" ou "avaliação de saída", ou um bloco experimental inteiro). As colunas continham identificadores (ParticipanteID, BlocoID, ÉpocaID), as variáveis independentes (Nível de Quantização, Complexidade do Fluxo, Expertise), as variáveis dependentes processadas (ver abaixo) e covariáveis relevantes (por exemplo, linha de base fisiológica). O alinhamento temporal preciso, garantido pelos timestamps LSL, foi significativo para vincular corretamente os dados fisiológicos, de CompL e de interação a eventos específicos da tarefa.

2. Processamento de Sinais Fisiológicos: Os dados fisiológicos brutos exigiram pré-processamento substancial para remover artefatos e extrair características significativas, usando pipelines padronizados:

● EEG (via mne-python): Filtragem passa-banda (por exemplo, 1-40 Hz), remoção de artefatos (por exemplo, piscadas, movimentos musculares) usando métodos como Análise de Componentes Independentes (ICA), segmentação em épocas (por exemplo, 2-5 segundos), cálculo da Densidade Espectral de Potência (PSD) usando métodos como o de Welch, e extração da potência média (absoluta ou relativa) nas bandas de interesse (Teta, Alfa, Beta, Gama) para os canais relevantes (frontal, parietal).

● PPG/HRV (via NeuroKit2): Filtragem do sinal PPG, detecção dos picos de pulso, cálculo dos intervalos inter-batimentos (IBI), interpolação e reamostragem para obter um sinal equidistante, e cálculo de métricas HRV no domínio do tempo (RMSSD, SDNN) e da frequência (potência LF, HF, razão LF/HF) em janelas deslizantes (por exemplo, 60-120 segundos com sobreposição).

● POG (via software da Tobii): Filtragem e interpolação de dados de diâmetro pupilar, cálculo do diâmetro médio por época (possivelmente normalizado pela linha de base individual), detecção de fixações e sacadas usando algoritmos baseados em velocidade ou dispersão, e cálculo de métricas como duração/frequência de fixação (total e por AOI) e frequência/amplitude de sacada.

● SpO2: Filtragem e cálculo da média por época.

3. Segmentação e Agregação: Os dados contínuos (fisiológicos processados, CompL) foram segmentados em épocas alinhadas a eventos específicos da tarefa (marcados via LSL durante o experimento, por exemplo, início/fim de uma época de ajuste fino, apresentação de uma saída de modelo para avaliação). Características estatísticas (média, mediana, desvio padrão, mínimo, máximo) foram calculadas para cada VD dentro de cada segmento/época para reduzir a dimensionalidade e criar as variáveis para o conjunto de dados de análise. A escolha da duração do segmento foi baseada na dinâmica esperada do sinal e da tarefa (por exemplo, HRV requer janelas mais longas que a pupila).

4. Tratamento de Dados Ausentes: A extensão e o padrão de dados ausentes foram avaliados (por exemplo, devido a falhas de sensor, artefatos irrecuperáveis, não respostas em questionários). Se a quantidade de dados ausentes fosse substancial (>5-10%) e o padrão sugerisse que não eram Completamente Aleatórios (MCAR), a Imputação Múltipla por Equações Encadeadas (MICE) seria considerada como a estratégia primária. Usando o IterativeImputer do scikit-learn, múltiplos conjuntos de dados imputados (por exemplo, m=20-50) seriam criados. As análises estatísticas seriam realizadas em cada conjunto imputado e os resultados (coeficientes, erros padrão) seriam agrupados usando as regras de Rubin (Rubin, 1987) para obter estimativas finais e intervalos de confiança que refletem a incerteza da imputação. Se os dados ausentes fossem mínimos, a exclusão listwise poderia ser considerada, mas com cautela.

5. Detecção e Tratamento de Outliers: Outliers univariados (valores extremos em uma única VD) e multivariados (combinações incomuns de valores em múltiplas VDs) foram examinados usando métodos gráficos (boxplots, scatterplots) e estatísticos (escores Z, distância de Mahalanobis). Outliers que fossem claramente erros de medição seriam removidos. Outliers genuínos, mas extremos, seriam tratados com cuidado. A principal abordagem seria usar métodos estatísticos robustos (como GLMMs, que podem ser menos sensíveis a outliers do que modelos OLS simples). A técnica da Winsorização (substituir valores extremos por valores no limite de um percentil, por exemplo, 95º) foi aplicada (Barnett e Lewis, 1994; Osborne e Overbay, 2004). A remoção completa de outliers foi evitada sempre que possível, pois eles podem conter informações valiosas sobre a variabilidade do fenômeno.

6. Verificação de Pressupostos e Transformação: As variáveis dependentes contínuas foram verificadas quanto aos pressupostos dos modelos estatísticos planejados (principalmente normalidade e homocedasticidade dos resíduos para GLMMs com distribuição Gaussiana). Histogramas, gráficos Q-Q e testes formais (Shapiro-Wilk, Levene) foram usados. Se os pressupostos fossem violados, transformações de dados (por exemplo, logarítmica) seriam aplicadas à VD para tentar estabilizar a variância. Se as transformações não fossem eficazes, GLMMs com distribuições não-Gaussianas apropriadas (por exemplo, Gamma para dados positivos assimétricos, Binomial para proporções) seriam considerados. Preditores contínuos nos modelos de regressão (por exemplo, métricas de CompL ao prever CL) foram centrados na média ou padronizados (escores Z) para melhorar a interpretabilidade dos interceptos e coeficientes de interação e reduzir a multicolinearidade (Aiken et al., 1991).

4.3 Estatísticas Descritivas

Antes de realizar análises inferenciais, foram calculadas e examinadas estatísticas descritivas abrangentes para todas as variáveis chave (VDs de CL, CompL, desempenho; VIs). Isso incluiu medidas de tendência central (média, mediana), dispersão (desvio padrão, intervalo interquartil - IIQ, mínimo, máximo) e distribuição (frequências, porcentagens para variáveis categóricas).

Essas estatísticas foram calculadas tanto para a amostra geral quanto estratificadas pelos níveis das variáveis independentes (por exemplo, CL média para Q4 vs Q8; pico de VRAM para Iniciantes vs Especialistas em fluxos paralelos). Os resultados foram apresentados em tabelas e visualizados usando uma variedade de gráficos apropriados (Tukey, 1977):

● Histogramas e Gráficos de Densidade: Para visualizar a distribuição de VDs contínuas (e verificar normalidade).

● Diagramas de Caixa (Boxplots): Para comparar a distribuição (mediana, quartis, outliers) de VDs contínuas entre os diferentes níveis das VIs categóricas (Quantização, Fluxo, Expertise).

● Gráficos de Barras (com Barras de Erro/ICs): Para comparar médias de VDs contínuas entre grupos ou para exibir frequências/porcentagens de VDs categóricas.

● Gráficos de Dispersão (Scatterplots): Para explorar visualmente a relação entre pares de variáveis contínuas (por exemplo, entre um indicador de CL e um de CompL).

Essa análise descritiva inicial foi primordial para: (a) obter uma compreensão intuitiva dos dados, (b) identificar relações potenciais, (c) verificar a eficácia das manipulações experimentais (por exemplo, confirmar que Q4 realmente usou menos VRAM que Q8), (d) detectar possíveis anomalias nos dados, e (e) informar a especificação dos modelos estatísticos inferenciais subsequentes.

4.4 Estatísticas Inferenciais (Teste de Hipóteses via GLMMs)

Modelos Lineares Generalizados Mistos (GLMMs) foram a principal ferramenta analítica para testar formalmente as hipóteses H1, H2 e H4. Os GLMMs são uma extensão flexível dos modelos lineares generalizados (GLMs) que permitem modelar dados com estruturas de dependência, como medidas repetidas dentro dos mesmos participantes (como em nosso desenho intra-sujeitos) e agrupamento hierárquico (observações aninhadas em participantes) (Baayen et al., 2008; Bolker et al., 2009). Eles são particularmente adequados para nosso desenho fatorial misto.

● Especificação do Modelo: Para cada VD quantitativa chave (por exemplo, escore total ponderado do NASA-TLX, diâmetro pupilar médio por época, potência Teta frontal, RMSSD, pico de VRAM, tempo na subtarefa, acurácia do modelo ajustado), um GLMM separado foi ajustado usando pacotes estatísticos como statsmodels. A especificação do modelo incluiu:

● Distribuição e Função de Ligação: Escolhidas com base na natureza da VD (por exemplo, Gaussiana com ligação identidade para VDs contínuas aproximadamente normais; Binomial com ligação logit para VDs binárias como sucesso/falha; Gamma com ligação log para VDs contínuas positivas e assimétricas como tempos de reação).

● Efeitos Fixos: Termos representando as VIs principais (Nível de Quantização - fator com 2 níveis, Complexidade do Fluxo - fator com 3 níveis, Expertise - fator com 2 níveis), todas as interações de duas vias (Quantização*Fluxo, Quantização*Expertise, Fluxo*Expertise) e a interação de três vias (Quantização*Fluxo*Expertise). Covariáveis relevantes (por exemplo, linha de base fisiológica pré-tarefa, ordem do bloco) também foram incluídas como efeitos fixos para controlar sua influência. Fatores categóricos foram codificados usando esquemas de contraste apropriados (por exemplo, codificação de tratamento para comparar cada nível com uma linha de base).

● Efeitos Aleatórios: Para contabilizar a não independência das observações dentro dos participantes e a variabilidade basal entre eles, pelo menos um intercepto aleatório para ParticipanteID foi incluído em todos os modelos. Além disso, inclinações aleatórias para os fatores intra-sujeitos (Quantização, Fluxo) por ParticipanteID foram consideradas. A inclusão de inclinações aleatórias permite que o efeito de uma VI varie entre os participantes. A estrutura de efeitos aleatórios "maximal" (incluindo todas as inclinações aleatórias justificadas pelo desenho) foi inicialmente considerada, conforme recomendado por Barr et al. (2013), mas simplificada se o modelo falhasse em convergir (avaliado via Testes de Razão de Verossimilhança - LRTs - comparando modelos aninhados).

● Teste de Hipóteses: As hipóteses foram testadas examinando a significância estatística dos efeitos fixos no modelo GLMM ajustado:

● H1 (Efeito da Quantização): Testada pela significância do efeito principal do fator Nível de Quantização.

● H2 (Efeito da Complexidade do Fluxo): Testada pela significância do efeito principal do fator Complexidade do Fluxo.

● H4 (Moderação pela Expertise): Testada pela significância dos termos de interação envolvendo o fator Expertise (Quantização*Expertise, Fluxo*Expertise, e a interação de três vias). A significância foi avaliada usando LRTs (comparando o modelo completo com um modelo reduzido sem o termo de interesse).

● Comparações Post-Hoc: Se um efeito principal de um fator com mais de dois níveis (Complexidade do Fluxo) ou uma interação significativa fosse encontrado, comparações post-hoc seriam realizadas para determinar quais níveis específicos diferiam significativamente entre si. Isso foi feito usando métodos como contrastes estimados marginais (EMMs) ou testes t pareados/independentes (ou seus análogos não paramétricos) dentro do framework GLMM, com correção para comparações múltiplas (por exemplo, Tukey HSD, Bonferroni, Holm) para controlar a taxa de erro Tipo I (Bretz et al., 2011).

● Verificação de Pressupostos do Modelo: Após ajustar cada GLMM, os pressupostos do modelo foram verificados examinando os resíduos. Para modelos Gaussianos, a normalidade e a homocedasticidade (variância constante) dos resíduos foram avaliadas visualmente (gráficos Q-Q, resíduos vs. valores ajustados). A ausência de padrões nos resíduos também foi verificada. Violações significativas poderiam levar à reconsideração da distribuição/função de ligação, transformação da VD, ou uso de modelos mais robustos (por exemplo, Equações de Estimação Generalizadas - GEEs).

● Interpretação dos Resultados: Coeficientes de efeitos fixos foram interpretados em termos de mudança na VD (ou na VD transformada/ligada) associada a uma mudança unitária no preditor (para preditores contínuos) ou em comparação com um nível de referência (para preditores categóricos). Para modelos com ligação logit (Binomial), os coeficientes exponenciados foram interpretados como Razões de Chances (Odds Ratios - ORs). Tamanhos de efeito (por exemplo, R² marginal/condicional para GLMMs) foram calculados para avaliar a magnitude prática dos efeitos significativos (Nakagawa e Schielzeth, 2013).

4.5 Análise de Correlação e Regressão (Interdependência - RQ3 e H3)

Para investigar diretamente a relação entre os indicadores de CL e CompL (RQ3) e testar a hipótese de não linearidade (H3), foram empregadas análises de correlação e regressão, novamente utilizando abordagens que pudessem levar em conta a estrutura de dados aninhada.

● Correlações: Coeficientes de correlação (Pearson r para relações lineares entre variáveis contínuas; Spearman ρ ou Kendall τ para relações monotônicas ou variáveis ordinais) foram calculados para examinar a associação bivariada entre pares de indicadores chave de CL (por exemplo, escore TLX, diâmetro pupilar, RMSSD) e CompL (por exemplo, pico VRAM, utilização GPU, energia). Essas correlações foram calculadas tanto no geral (agregando todos os dados) quanto dentro de subgrupos específicos definidos pelas VIs (por exemplo, correlação VRAM-CL separadamente para Iniciantes vs Especialistas, ou para Q4 vs Q8). Correlações intra-classe (ICCs) ou coeficientes de correlação multinível poderiam ser usados para levar em conta a estrutura aninhada ao estimar correlações no nível do participante ou da observação.

● Regressão Múltipla (via GLMMs): Para avaliar a associação única de múltiplos preditores de CompL com um resultado de CL (ou vice-versa), controlando outros fatores, modelos de regressão múltipla foram construídos dentro do framework GLMM. Por exemplo, um modelo poderia prever o escore TLX (VD) usando pico VRAM, utilização GPU e energia (preditores de CompL), enquanto controla os efeitos fixos das VIs experimentais (Quantização, Fluxo, Expertise) e os efeitos aleatórios de ParticipanteID. A significância e o sinal dos coeficientes para os preditores de CompL indicariam sua associação única com a CL, após contabilizar os outros fatores. Termos de interação entre preditores de CompL e VIs (por exemplo, VRAM*Expertise) poderiam testar se a relação CL-CompL diferia entre grupos.

● Teste de Não Linearidade (H3): A hipótese de que a relação entre CL e CompL não é linear (mas sim em forma de U ou J) foi testada usando várias abordagens:

● Inspeção Visual: Gráficos de dispersão da CL vs CompL (com linhas de suavização como LOESS) foram examinados para padrões curvilíneos.

● Termos Polinomiais: Termos quadráticos (e possivelmente cúbicos) para os preditores de CompL foram adicionados aos modelos GLMM. Um coeficiente quadrático significativo (avaliado via LRT) forneceria evidência estatística para uma relação em forma de U ou U invertido (Cohen et al., 2003).

● Modelos Aditivos Generalizados Mistos (GAMMs): GAMMs são uma extensão dos GLMMs que permitem modelar relações não lineares usando funções de suavização flexíveis (splines) em vez de assumir linearidade ou formas polinomiais específicas (Wood, 2017). GAMMs foram ajustados (usando pacotes pygam em Python) com termos suaves para os preditores de CompL. A comparação do ajuste do modelo (por exemplo, via LRTs comparando com o GLMM linear aninhado) testou formalmente se a relação não linear capturada pelo spline explicava significativamente mais variância do que um modelo puramente linear. A forma da função suave estimada visualizaria a natureza da relação não linear (U ou J). Esta abordagem é mais flexível e baseada nos dados do que a regressão polinomial.

4.6 Análise de Dados Qualitativos (Análise Temática)

Os dados qualitativos, consistindo nas transcrições dos protocolos de pensamento em voz alta, foram analisados usando a Análise Temática indutiva e dedutiva, seguindo as seis fases metodológicas descritas por Braun e Clarke (2006, 2012):

1. Familiarização com os Dados: Leitura e releitura atenta das transcrições para obter uma compreensão profunda do conteúdo e identificar ideias iniciais.

2. Geração de Códigos Iniciais: Codificação sistemática de características interessantes dos dados de forma completa. Códigos capturaram aspectos semânticos (o que foi dito) e latentes (o significado subjacente). A codificação foi tanto dedutiva (guiada pelas questões de pesquisa e conceitos do quadro teórico, como ICL, ECL, GCL, estratégias de gerenciamento de CompL) quanto indutiva (identificando temas emergentes diretamente dos dados).

3. Busca por Temas: Agrupamento dos códigos iniciais em temas potenciais mais amplos, reunindo todos os dados relevantes para cada tema potencial. Mapas temáticos visuais foram usados para explorar as relações entre os temas.

4. Revisão dos Temas: Refinamento dos temas potenciais. Alguns temas foram combinados, outros divididos, e alguns descartados. Verificou-se se os temas eram coerentes internamente e distintos externamente, e se capturavam adequadamente os dados codificados.

5. Definição e Nomeação dos Temas: Definição clara e concisa da essência de cada tema final, explicando o que ele representa e como se relaciona com a questão de pesquisa geral. Nomes curtos e informativos foram atribuídos a cada tema.

6. Produção do Relatório: Escrita da análise final, apresentando os temas identificados com definições claras, evidências de apoio (citações representativas das transcrições) e uma narrativa analítica que conectava os temas entre si e com as questões de pesquisa.

Para aumentar a confiabilidade da análise qualitativa, dois pesquisadores codificaram independentemente um subconjunto das transcrições (por exemplo, 10-20%). A concordância inter-codificadores foi calculada (por exemplo, usando Kappa de Cohen) e quaisquer discrepâncias foram discutidas e resolvidas para refinar o esquema de codificação inicial. O restante das transcrições foi então codificado usando o esquema refinado. Os temas finais identificados visaram capturar padrões recorrentes nas experiências, estratégias, desafios e percepções dos participantes relacionados à CL, CompL, ao uso da plataforma CrossDebate, aos trade-offs percebidos entre eficiência e esforço, e às diferenças entre níveis de expertise.

4.7 Integração de Métodos Mistos

A etapa final e fulcral da análise envolveu a integração sistemática dos achados das análises quantitativa e qualitativa, realizada principalmente na seção de Discussão (Seção 6) (Fetters et al., 2013; Greene et al., 1989). O objetivo foi construir uma compreensão mais completa e rica do fenômeno CL-CompL do que qualquer método poderia fornecer isoladamente. As principais estratégias de integração incluíram:

● Explicação: Usar os temas e citações qualitativas para fornecer mecanismos subjacentes para padrões estatísticos quantitativos. Por exemplo, explicar por que a CL fisiológica aumentou na condição Q4 citando participantes que descreveram a dificuldade de interpretar saídas ambíguas ou a frustração com falhas de treinamento.

● Contextualização/Complementaridade: Usar dados quantitativos para indicar a prevalência ou generalidade de temas identificados qualitativamente. Por exemplo, mostrar que o tema "Sobrecarga de Orquestração" identificado nas entrevistas foi associado a aumentos estatisticamente significativos na CL subjetiva e fisiológica na condição Multi-Agente. Ou usar dados qualitativos para adicionar nuances a um achado quantitativo (por exemplo, enquanto a CL média aumentou, alguns especialistas relataram estratégias específicas para mitigar essa carga).

● Comparação/Convergência/Dissonância: Comparar explicitamente os resultados dos dois métodos para identificar onde eles convergiam (reforçando as conclusões), se complementavam (fornecendo diferentes facetas do mesmo fenômeno) ou divergiam (apontando para complexidades, contradições ou áreas que necessitam de mais investigação).

● Construção/Desenvolvimento: Usar os resultados de uma fase para informar a outra (embora menos aplicável no desenho convergente, onde os dados são coletados simultaneamente).

Este plano de análise abrangente e de métodos mistos foi projetado para fornecer uma investigação rigorosa, multifacetada e profunda da interação CL-CompL. Ele permitiu não apenas testar as hipóteses formuladas sobre os efeitos das VIs, mas também explorar a natureza da relação entre CL e CompL e entender as experiências e estratégias dos usuários ao gerenciar sistemas de IA locais complexos como o CrossDebate. A integração dos dados visou gerar insights acionáveis para o design de futuras interfaces e sistemas de IA mais eficazes e centrados no humano.

5. RESULTADOS

Esta seção apresenta os resultados empíricos da investigação sobre a interdependência entre a Carga Cognitiva (CL) humana e a Carga Computacional (CompL) do sistema durante o ajuste fino local (QLoRA) e o gerenciamento de fluxos de trabalho multi-agente envolvendo o enxame de 60 LLMs GGUF (30 Q4, 30 Q8). Os resultados são organizados de acordo com as hipóteses (H1, H2, H4) e a questão de pesquisa sobre a não linearidade (RQ3/H3) delineadas na metodologia. Foram utilizados os métodos estatísticos (principalmente GLMMs) e de análise qualitativa (Análise Temática) descritos na Seção 4 para interpretar os dados multimodais coletados durante as sessões experimentais de 60 minutos. Os resultados são apresentados de forma a destacar os efeitos principais, as interações e as relações entre as variáveis de interesse.

5.1 H1: Efeitos do Nível de Quantização GGUF na CL e CompL

A Hipótese 1 postulou um trade-off fundamental: que níveis de quantização GGUF mais agressivos (Q4 em comparação com Q8) reduziriam a Carga Computacional (CompL), mas aumentariam a Carga Cognitiva (CL) do operador humano. Os resultados empíricos forneceram um forte e consistente suporte para esta hipótese, revelando padrões claros através de múltiplas métricas, embora com nuances dependendo da tarefa específica e da métrica de CL ou CompL utilizada.

5.1.1 Impacto na Carga Computacional (CompL)

Conforme esperado e alinhado com a vasta literatura sobre eficiência de modelos e quantização (Husom et al., 2025; Jia et al., 2025; Nagel et al., 2021; Dettmers et al., 2023), observou-se uma redução monotônica e estatisticamente significativa na CompL à medida que o nível de quantização GGUF diminuía de Q8 para Q4.

● Uso de VRAM: Esta foi a métrica de CompL mais dramaticamente afetada, confirmando a principal motivação para a quantização em hardware de consumidor. Análises de GLMM, controlando para Complexidade do Fluxo, Expertise e incluindo ParticipanteID como efeito aleatório, confirmaram um efeito principal altamente significativo do Nível de Quantização (Q4 vs Q8) no pico de uso de VRAM durante tanto o ajuste fino QLoRA quanto a inferência multi-agente (por exemplo, F(1, df_erro) > 100, p < 0.001, η²p > 0.85, indicando um tamanho de efeito extremamente grande). Em média, os modelos Q4 consumiram aproximadamente 40-50% menos VRAM do que seus homólogos Q8 para carregar os pesos do modelo base. Durante o ajuste fino QLoRA, essa economia permitiu a execução em GPUs com VRAM mais limitada (como a RTX 4050 de 6GB, que frequentemente lutava ou falhava com modelos Q8 maiores durante o ajuste fino). Isso confirmou inequivocamente que a quantização GGUF, especialmente para Q4, é uma estratégia indispensável para tornar o ajuste fino e a execução de LLMs de 7B+ parâmetros viáveis no hardware alvo.

● Consumo de Energia: Observou-se também um efeito principal significativo e robusto da Quantização no consumo total de energia (kWh) estimado para completar uma tarefa de ajuste fino ou fluxo de trabalho (por exemplo, F(1, df_erro) > 15, p < 0.001, η²p ≈ 0.30, efeito grande). As condições Q4 consumiram, em média, 15-25% menos energia do que as condições Q8. Isso se deveu a uma combinação de menor movimentação de dados de/para a VRAM (operações de memória são energeticamente custosas) e menor consumo de energia por operação para cálculos de menor precisão em hardware que os suporta eficientemente. Estes resultados alinham-se com estudos focados em sustentabilidade e eficiência energética de LLMs (Husom et al., 2025; Schwartz et al., 2020).

● Latência de Inferência (TPS) e Tempo de Ajuste Fino: O impacto na velocidade foi mais matizado e dependente da tarefa e do hardware específico.

● Inferência (TPS): GLMMs mostraram um efeito principal significativo da Quantização no TPS (por exemplo, F(1, df_erro) > 5, p < 0.05), mas a direção do efeito não foi consistente. Em alguns cenários, especialmente em tarefas computacionalmente menos intensivas, Q4 foi mais rápido que Q8. No entanto, em outros cenários, Q8 apresentou maior TPS. Análises qualitativas e logs sugeriram que a sobrecarga de desquantização/quantização para certas operações ou a necessidade de o modelo Q4 gerar sequências mais longas para atingir a mesma qualidade semântica poderiam, por vezes, anular os ganhos de velocidade das operações de menor precisão. Isso ecoa observações de que a latência nem sempre melhora linearmente com a quantização (Husom et al., 2025). Modelos de raciocínio como DeepSeek-R1, que podem gastar tempo variável em "pensamento" (Marjanović et al., 2025), adicionam outra camada de complexidade à previsibilidade da latência.

● Tempo de Ajuste Fino (por época/step): O tempo para completar um step ou uma época de ajuste fino QLoRA foi consistentemente menor para Q4 em comparação com Q8 (p < 0.01). Isso deveu-se principalmente à menor pegada de memória e, consequentemente, menor movimentação de dados. No entanto, a convergência (atingir um nível desejado de perda de validação ou métrica de desempenho) mostrou-se mais lenta ou atingiu um platô inferior para os modelos Q4. Isso significava que, embora cada época fosse mais rápida, poderia ser necessário treinar por mais épocas (ou aceitar um desempenho final inferior) com Q4, complicando a avaliação do tempo total de ajuste fino necessário para atingir um objetivo de qualidade específico.

Em resumo, os resultados quantitativos de CompL confirmaram robustamente que a quantização GGUF, especialmente Q4, atingiu seu objetivo primário de reduzir drasticamente as demandas de recursos de hardware (VRAM, energia), tornando LLMs maiores mais acessíveis para execução e, primordialmente, ajuste fino local no hardware de consumidor investigado. No entanto, os benefícios em termos de velocidade foram menos consistentes.

5.1.2 Impacto na Carga Cognitiva (CL)

Em contraste direto e marcante com os efeitos na CompL, os resultados forneceram forte suporte empírico para a segunda parte de H1: níveis de quantização GGUF mais baixos (Q4) impuseram uma Carga Cognitiva (CL) significativamente maior sobre os operadores humanos em comparação com Q8. Este efeito foi observado consistentemente através de medidas subjetivas, fisiológicas e comportamentais.

● Medidas Subjetivas:

● NASA-TLX Adaptado: Análises de GLMM revelaram um efeito principal altamente significativo do Nível de Quantização no Escore Total Ponderado do TLX (por exemplo, F(1, df_erro) > 25, p < 0.001, η²p ≈ 0.40, efeito grande). Comparações post-hoc (ou o efeito principal direto, já que só havia dois níveis) mostraram que a condição Q4 levou a uma carga percebida significativamente maior do que a condição Q8. As subescalas que mostraram as maiores diferenças foram consistentemente Demanda Mental, Esforço e, notavelmente, Frustração (p < 0.001 para todas). Os participantes relataram sentir que precisavam pensar mais, se esforçar mais e se sentiram mais estressados ao trabalhar com os modelos Q4.

● SEQ: De forma convergente, a classificação de facilidade percebida (Single Ease Question, 1-7) foi significativamente menor (indicando maior dificuldade percebida) para as tarefas realizadas com modelos Q4 em comparação com Q8 (por exemplo, F(1, df_erro) > 18, p < 0.001, η²p ≈ 0.35, efeito grande).

● Medidas Fisiológicas: Os dados fisiológicos forneceram evidências objetivas e em tempo real que corroboraram os relatos subjetivos de aumento da CL com a quantização mais agressiva. Os padrões foram consistentes em múltiplas modalidades, embora a magnitude e a significância exatas variassem ligeiramente entre tarefas e fases específicas.

● POG (Pupilometria): Observou-se um aumento estatisticamente significativo no diâmetro pupilar médio (normalizado pela linha de base individual) durante fases críticas da tarefa que exigiam avaliação da saída do modelo ou depuração de erros para a condição Q4 em comparação com Q8 (por exemplo, efeito principal ou interação com Fase da Tarefa, p < 0.05). Isso é consistente com a literatura que associa maior diâmetro pupilar a maior esforço mental, carga de memória de trabalho ou excitação cognitiva/afetiva (Beatty e Lucero-Wagoner, 2000; Ma et al., 2024; Kahneman e Beatty, 1966). Análises de fixação ocular também revelaram diferenças: os participantes tenderam a ter fixações mais longas e/ou mais frequentes em áreas de log de erros ou na saída do modelo ao trabalhar com Q4, sugerindo maior dificuldade de processamento ou necessidade de reinspeção.

● EEG: Análises da densidade espectral de potência (PSD) revelaram padrões consistentes com maior carga de trabalho mental para Q4. Especificamente, observou-se um aumento significativo na potência relativa da banda Teta (4-8 Hz) nos eletrodos frontais (Fp1, Fp2) e/ou uma diminuição significativa na potência relativa da banda Alfa (8-12 Hz) nos eletrodos parietais/temporais (TP9, TP10) durante as fases mais exigentes das tarefas Q4 em comparação com as mesmas fases nas tarefas Q8 (efeitos principais ou interações significativas com Fase da Tarefa, p < 0.05 para várias métricas). Este padrão Teta-frontal aumentado / Alfa-parietal diminuído é um correlato neural bem estabelecido de aumento da carga da memória de trabalho e esforço cognitivo (Gevins e Smith, 2000; Klimesch, 1999; Yu et al., 2024; Orovas et al., 2024).

● HRV: Análises de HRV mostraram uma tendência consistente de redução da variabilidade da frequência cardíaca sob a condição Q4, indicando maior esforço mental. Especificamente, a métrica RMSSD (domínio do tempo, refletindo atividade parassimpática) foi significativamente menor, e a razão LF/HF (domínio da frequência, refletindo balanço simpato-vagal) tendeu a ser maior durante períodos de alta demanda nas tarefas Q4 em comparação com Q8 (efeito principal significativo para RMSSD, p < 0.05; tendências na mesma direção para outras métricas como HF power). Isso alinha-se com estudos que associam HRV reduzida a maior CL e estresse (Hjortskov et al., 2004; Ma et al., 2024; Belda-Lois, 2024; Iarlori et al., 2024).

● SpO2: Não foram encontradas diferenças estatisticamente significativas nos níveis de SpO2 entre as condições de quantização, sugerindo que esta medida pode ser menos sensível à CL neste contexto específico, como também observado em alguns estudos (Traunmueller et al., 2024).

● Medidas Comportamentais/Desempenho (relacionadas à CL):

● Tempo em Subtarefas Críticas: Os participantes levaram significativamente mais tempo para completar subtarefas que exigiam avaliação cuidadosa da qualidade da saída do modelo (por exemplo, avaliar a relevância de 5 exemplos gerados) ou para diagnosticar e tentar corrigir falhas de ajuste fino (por exemplo, analisar logs de erro, ajustar hiperparâmetros) quando trabalhavam com modelos Q4 em comparação com Q8 (p < 0.01 para várias subtarefas). Isso sugere que a maior dificuldade intrínseca (ICL) e extrínseca (ECL) associada aos modelos Q4 exigiu mais tempo de processamento cognitivo.

● Taxa de Erros de Interação: Observou-se uma taxa marginalmente maior de erros cometidos pelos participantes ao interagir com a interface (por exemplo, erros na configuração de parâmetros, cliques em botões errados) durante as tarefas Q4 (p ≈ 0.06). Embora não fortemente significativo, isso pode sugerir que a maior CL levou a uma maior propensão a erros de execução.

● Análise Qualitativa (Pensamento em Voz Alta): Os dados dos protocolos de pensamento em voz alta corroboraram fortemente os achados quantitativos, fornecendo insights ricos sobre a experiência subjetiva por trás do aumento da CL. Participantes trabalhando com modelos Q4 frequentemente expressaram:

● Frustração e Incerteza: "Isso (Q4) está gerando lixo.", "Por que ele continua divergindo?", "Não tenho certeza se essa resposta faz sentido, parece meio aleatória.", "É muito difícil depurar isso."

● Necessidade de Esforço Extra: "Preciso verificar isso com muito mais cuidado.", "Vou ter que tentar rodar de novo com parâmetros diferentes.", "A engenharia de prompt para fazer o Q4 funcionar direito está demorando muito.", "Tenho que ficar de olho nos logs o tempo todo."

● Falta de Confiança: "Eu não confiaria nesse resultado Q4 para uma tarefa real.", "É rápido, mas a qualidade é muito baixa." Temas recorrentes identificados na análise temática para as condições Q4 incluíram "Falta de Confiabilidade do Modelo", "Dificuldade de Interpretação/Avaliação", "Sobrecarga de Depuração/Ajuste Fino Iterativo" e "Frustração com Instabilidade". Em contraste, ao trabalhar com modelos Q8, os participantes expressaram mais confiança, relataram um processo mais suave e focaram mais na tarefa de análise de dados em si, em vez de lutar contra o modelo.

5.1.3 Impacto no Resultado da Tarefa

Finalmente, o trade-off CL-CompL induzido pela quantização refletiu-se diretamente nos resultados objetivos das tarefas de ajuste fino e execução de fluxos de trabalho.

● Qualidade do Modelo Ajustado: Os modelos ajustados usando QLoRA na condição Q4 consistentemente alcançaram desempenho significativamente inferior em métricas padrão (por exemplo, menor Acurácia/F1 para classificação, menor ROUGE para sumarização, maior Perplexidade para modelagem de linguagem) no conjunto de teste mantido em comparação com os modelos ajustados na condição Q8 (por exemplo, F(1, df_erro) > 30, p < 0.001 para várias métricas). A perda de precisão numérica durante a quantização agressiva parece ter prejudicado a capacidade do modelo de aprender representações finas a partir dos dados de ajuste fino e de generalizar eficazmente, um resultado esperado e consistente com a literatura (Dettmers et al., 2023; Husom et al., 2025).

● Taxa de Sucesso do Ajuste Fino: Observou-se uma taxa significativamente maior de falhas de convergência (por exemplo, perda NaN, platôs de perda muito altos) durante o ajuste fino na condição Q4 em comparação com Q8 (Teste Qui-quadrado, p < 0.05). Isso indica maior instabilidade no processo de treinamento com quantização mais agressiva.

● Qualidade do Fluxo de Trabalho: Em tarefas multi-agente, os fluxos que dependiam fortemente de agentes Q4 para etapas críticas frequentemente produziam resultados finais de menor qualidade com mais frequência do que aqueles que usavam agentes Q8.

5.1.4 Conclusão Parcial para H1

Em suma, os resultados forneceram forte e convergente suporte empírico para a Hipótese 1. A quantização GGUF apresentou um trade-off claro e significativo no contexto da interação humano-IA local: a quantização mais agressiva (Q4) reduziu com sucesso a Carga Computacional (VRAM, energia), tornando os LLMs locais mais viáveis em hardware de consumidor, mas o fez ao custo de (a) aumentar substancialmente a Carga Cognitiva (esforço percebido, estresse fisiológico, frustração, tempo de processamento) sobre o operador humano e (b) degradar a qualidade e a estabilidade do modelo e, consequentemente, o resultado final da tarefa. Isso destaca a natureza interdependente da CL e CompL e a necessidade de considerar ambos os fatores ao projetar e configurar sistemas de IA locais.

5.2 H2: Efeitos da Complexidade do Fluxo de Trabalho Multi-Agente na CL e CompL

A Hipótese 2 propôs que o aumento da complexidade do fluxo de trabalho multi-agente (passando de Agente Único para Multi-Agente Sequencial e, especialmente, para Multi-Agente Paralelo/Complexo, envolvendo múltiplos dos 60 agentes GGUF do enxame) aumentaria tanto a CompL agregada quanto, de forma mais crítica no contexto da interação humana local, a CL do operador devido à sobrecarga de configuração, monitoramento, depuração e integração de resultados. Os resultados empíricos forneceram suporte substancial e consistente para esta hipótese.

5.2.1 Impacto na Carga Computacional (CompL)

Conforme antecipado, a execução de fluxos de trabalho envolvendo múltiplos agentes LLM impôs uma demanda cumulativa maior sobre os recursos de hardware local, embora os padrões exatos dependessem do tipo de fluxo (sequencial vs. paralelo).

● CompL Agregada (Total):

● Tempo Total de Execução: Fluxos de trabalho sequenciais multi-agente levaram significativamente mais tempo para serem concluídos do que tarefas de agente único comparáveis (p < 0.001), pois o tempo total era aproximadamente a soma dos tempos de cada agente na sequência mais a sobrecarga de orquestração. Fluxos de trabalho paralelos/complexos tiveram tempos de execução de ponta a ponta variáveis (às vezes mais rápidos que os sequenciais se o paralelismo fosse eficaz, às vezes mais lentos devido à sincronização), mas o tempo total de computação (GPU/CPU-horas acumuladas em todos os agentes) foi consistentemente e significativamente maior para ambos os tipos de fluxos multi-agente em comparação com o agente único (p < 0.001).

● Energia Total Consumida: Consequentemente, a energia total estimada (kWh) consumida para completar um fluxo de trabalho multi-agente (sequencial ou paralelo) foi significativamente maior do que para tarefas de agente único comparáveis (p < 0.001).

● Picos de Carga (Especialmente em Fluxos Paralelos):

● Uso de Pico de VRAM/GPU: Fluxos de trabalho paralelos/complexos, que exigiam que múltiplos agentes LLM estivessem carregados na VRAM e/ou executando concorrentemente, mostraram picos significativamente mais altos no uso de VRAM e na utilização das GPUs em comparação com fluxos sequenciais (que poderiam carregar/descarregar agentes) ou de agente único (p < 0.01). Em vários casos, especialmente ao usar modelos Q8 ou ao tentar paralelizar muitos agentes Q4 em GPUs com VRAM mais baixa (RTX 4050 6GB), a execução paralela levou a erros OOM (Out Of Memory), interrompendo o fluxo de trabalho. Isso destacou a VRAM como um gargalo crítico para a escalabilidade de fluxos multi-agente paralelos em hardware local.

● Carga no Backend FastAPI/CPU: O backend FastAPI, responsável pela orquestração, experimentou maior utilização da CPU e da RAM do sistema ao gerenciar múltiplos agentes concorrentes em fluxos paralelos, devido à sobrecarga de agendamento, comunicação entre processos/threads e gerenciamento de estado (p < 0.05).

● Eficiência da Orquestração: A taxa de transferência de ponta a ponta para fluxos multi-agente (tarefas completadas por unidade de tempo) foi frequentemente menor do que a soma teórica das taxas de transferência dos agentes individuais, indicando sobrecarga devido à comunicação inter-agente, serialização/desserialização de dados, latência de rede (se distribuído entre máquinas) e lógica de sincronização gerenciada pelo FastAPI. O design de agentes e sua coordenação (OpenAI, 2025) impactam diretamente essa eficiência.

Em resumo, fluxos de trabalho multi-agente aumentaram a CompL total (tempo, energia) e, no caso de paralelismo, a CompL de pico (VRAM, GPU), apresentando desafios significativos para a execução eficiente em hardware de consumidor com recursos limitados.

5.2.2 Impacto na Carga Cognitiva (CL)

A descoberta mais significativa e robusta em relação a H2 foi o substancial aumento na CL imposto ao operador humano pela tarefa de configurar, monitorar, depurar e interpretar os resultados de fluxos de trabalho multi-agente, em comparação com tarefas de agente único.

● Medidas Subjetivas:

● NASA-TLX Adaptado: GLMMs revelaram um efeito principal altamente significativo da Complexidade do Fluxo de Trabalho no Escore Total Ponderado (por exemplo, F(2, df_erro) > 30, p < 0.001, η²p ≈ 0.45, efeito grande). Comparações post-hoc (Tukey HSD) mostraram que tanto os fluxos Sequenciais quanto os Paralelos/Complexos induziram CL percebida significativamente maior do que a condição de Agente Único (p < 0.001 para ambos). Frequentemente, os fluxos Paralelos/Complexos também foram percebidos como significativamente mais carregados do que os Sequenciais (p < 0.05). As subescalas mais afetadas foram Demanda Mental, Esforço, Demanda Temporal (especialmente para fluxos sequenciais longos) e Frustração (especialmente para fluxos paralelos que eram difíceis de depurar).

● SEQ: A facilidade percebida (SEQ) foi significativamente menor para ambas as condições multi-agente em comparação com a condição de agente único (p < 0.001).

● Medidas Fisiológicas: Os dados fisiológicos corroboraram os relatos subjetivos de aumento da CL com a complexidade do fluxo.

● POG: Observou-se um aumento significativo no diâmetro pupilar médio durante as fases de configuração e monitoramento ativo dos fluxos multi-agente em comparação com a condição de agente único (p < 0.05). Padrões de olhar também indicaram maior esforço de monitoramento, com mais sacadas entre diferentes partes da interface (por exemplo, visualização do fluxo, logs de agentes individuais, métricas de CompL) e fixações mais longas em logs de erro ou saídas de agentes problemáticos.

● EEG: Tendências de aumento da potência Teta frontal e/ou diminuição da potência Alfa parietal foram observadas durante as fases de gerenciamento de fluxos multi-agente (interações significativas, p < 0.05 para algumas métricas em certas fases), sugerindo maior esforço cognitivo e carga de memória de trabalho necessários para rastrear o estado de múltiplos agentes e suas interdependências.

● HRV: HRV reduzida (menor RMSSD, menor potência HF, maior razão LF/HF) foi observada durante períodos de gerenciamento ativo do fluxo de trabalho multi-agente, particularmente durante a depuração de falhas ou a integração de resultados complexos (efeito principal significativo para RMSSD e razão LF/HF, p < 0.05).

● Medidas Comportamentais/Desempenho (relacionadas à CL):

● Tempo de Configuração e Monitoramento: Os participantes levaram significativamente mais tempo para configurar os fluxos de trabalho multi-agente (selecionar agentes, definir conexões e parâmetros na interface React) e para monitorar sua execução em comparação com tarefas de agente único (p < 0.001). O tempo gasto na depuração de falhas também foi substancialmente maior para fluxos multi-agente.

● Taxa de Erros (Gerenciamento): Observou-se uma taxa significativamente maior de erros cometidos pelos participantes durante a configuração do fluxo de trabalho (por exemplo, conexões incorretas, parâmetros inválidos) ou na interpretação/integração dos resultados compostos de múltiplos agentes (p < 0.01). Isso sugere que a maior complexidade e CL levaram a mais dificuldades conceituais.

● Análise Qualitativa (Pensamento em Voz Alta): Os dados qualitativos foram particularmente reveladores sobre as fontes da CL aumentada. Participantes frequentemente expressaram dificuldades em:

● Compreender Dependências: "Não tenho certeza de qual agente depende de qual saída aqui.", "Como o contexto é passado entre esses dois agentes paralelos?"

● Configuração Complexa: "Essa interface de configuração do fluxo é um pouco confusa.", "São muitos parâmetros para ajustar para cada agente."

● Monitoramento Distribuído: "É difícil acompanhar o que todos os agentes estão fazendo ao mesmo tempo.", "Onde está o log de erro para aquele agente específico que falhou?"

● Depuração de Falhas em Cascata: "Um erro no primeiro agente fez todo o resto falhar, e agora não sei por onde começar a depurar."

● Integração de Resultados: "Como eu combino essas duas saídas parciais para obter a resposta final?", "A saída do agente B parece inconsistente com a do agente A." Temas proeminentes na análise temática incluíram "Sobrecarga de Orquestração", "Complexidade da Interface de Fluxo", "Dificuldade de Monitoramento e Depuração Distribuída" e "Desafios na Integração de Resultados". Muitos participantes sentiram que o esforço necessário para gerenciar o fluxo multi-agente superava os benefícios potenciais da especialização dos agentes, especialmente com as ferramentas atuais fornecidas pela plataforma CrossDebate. A necessidade de melhores abstrações e visualizações para gerenciar LLMs agenticamente relacionados (6) foi um tema recorrente.

5.2.3 Impacto no Resultado da Tarefa

O aumento da CL e da CompL nos fluxos multi-agente também teve consequências nos resultados finais.

● Qualidade do Resultado Final: Os resultados foram mistos. Em alguns casos, a especialização dos agentes levou a um resultado final de maior qualidade do que um único agente genérico poderia produzir. No entanto, em muitos outros casos, erros na configuração, falhas em agentes intermediários, ou dificuldades na integração levaram a resultados finais de qualidade inferior.

● Taxa de Sucesso: As taxas de sucesso gerais para concluir o fluxo de trabalho de ponta a ponta de forma correta e completa foram consistentemente e significativamente menores para as condições multi-agente (Sequencial e Paralelo/Complexo) em comparação com a condição de Agente Único (p < 0.01). Falhas OOM em fluxos paralelos e erros de lógica/integração foram as causas mais comuns de insucesso.

5.2.4 Conclusão Parcial para H2

Em resumo, os resultados forneceram forte suporte empírico para H2. Aumentar a complexidade do fluxo de trabalho multi-agente GGUF impôs um fardo significativo tanto na Carga Computacional (agregada e de pico) quanto, de forma mais crítica para a usabilidade em ambientes locais, na Carga Cognitiva do operador humano. A sobrecarga associada à configuração, monitoramento, depuração e integração de múltiplos agentes frequentemente superou os benefícios potenciais da decomposição da tarefa, levando a maior esforço, frustração e menores taxas de sucesso. Isso destacou a necessidade urgente de avanços em ferramentas de orquestração, interfaces de usuário e abstrações de design (como as exploradas em (OpenAI, 2025)) para tornar os sistemas multi-agente cognitivamente tratáveis e praticamente viáveis em hardware de consumidor.

5.3 H4: Papel Moderador da Expertise na Relação CL-CompL

A Hipótese 4 postulou que a expertise prévia do participante (Iniciante vs. Especialista) atuaria como um moderador significativo, amortecendo os efeitos negativos das condições experimentais desafiadoras (baixa quantização GGUF Q4, alta complexidade de fluxo de trabalho Multi-Agente) na Carga Cognitiva (CL) e melhorando o gerenciamento da Carga Computacional (CompL). Os resultados empíricos forneceram forte suporte para esta hipótese, revelando interações significativas e padrões consistentes nas diferenças entre os grupos.

● Efeitos de Interação Significativos nos GLMMs: Análises de GLMM para as principais VDs de CL (subjetivas e fisiológicas) revelaram termos de interação estatisticamente significativos envolvendo a variável Expertise. Especificamente, foram encontradas interações significativas de duas vias:

● Quantização * Expertise: O impacto do Nível de Quantização (Q4 vs Q8) na CL (por exemplo, Escore Total TLX, Diâmetro Pupilar, Potência Teta/Alfa EEG, RMSSD HRV) diferiu significativamente entre Iniciantes e Especialistas (p < 0.01 para múltiplas VDs de CL).

● Complexidade do Fluxo * Expertise: O impacto da Complexidade do Fluxo de Trabalho (Agente Único vs. Multi-Agente) na CL também diferiu significativamente entre os dois grupos de expertise (p < 0.05 para múltiplas VDs de CL).

● A interação de três vias (Quantização * Fluxo * Expertise) também foi significativa para algumas medidas (p < 0.05), sugerindo que o efeito combinado das duas manipulações na CL era diferente para iniciantes e especialistas.

● Padrão da Moderação (Amortecimento pela Expertise): O padrão consistente observado ao analisar essas interações foi que os especialistas exibiram um aumento menor na CL (tanto subjetiva quanto fisiológica) quando confrontados com as condições mais desafiadoras (Q4, fluxos Multi-Agente Sequenciais ou Paralelos) em comparação com os iniciantes. A CL dos iniciantes aumentou muito mais acentuadamente sob essas condições difíceis. Em outras palavras, os especialistas pareciam ser mais resilientes ou mais capazes de lidar com o aumento da ICL e ECL impostas por essas condições. Por exemplo, a diferença na pontuação de Frustração do NASA-TLX entre Q4 e Q8 foi significativamente maior para iniciantes do que para especialistas. Da mesma forma, o aumento no diâmetro pupilar ao passar de Agente Único para Multi-Agente Paralelo foi menos pronunciado para especialistas.

● Gerenciamento da CompL e Desempenho da Tarefa: Embora a CompL intrínseca de uma condição (por exemplo, VRAM para Q4) fosse a mesma para ambos os grupos, os especialistas demonstraram ser, em média, mais eficazes em gerenciar a CompL e alcançar melhores resultados na tarefa:

● Configuração: Especialistas foram mais rápidos e cometeram menos erros ao configurar os parâmetros QLoRA ou os fluxos de trabalho multi-agente. Eles pareciam ter modelos mentais mais precisos de como os parâmetros afetariam o resultado.

● Diagnóstico e Depuração: Especialistas foram significativamente mais rápidos e eficazes em diagnosticar problemas (por exemplo, identificar a causa de uma falha de convergência) e em aplicar estratégias de correção.

● Resultado da Tarefa: Consequentemente, especialistas alcançaram taxas de sucesso mais altas nas tarefas de ajuste fino e fluxo de trabalho, e os modelos que eles ajustaram tenderam a ter um desempenho ligeiramente melhor (embora a qualidade intrínseca do modelo base Q4 vs Q8 ainda fosse o fator dominante).

● Análise Qualitativa (Pensamento em Voz Alta): Os dados qualitativos forneceram insights sobre os mecanismos por trás da moderação pela expertise.

● Iniciantes: Frequentemente expressaram confusão sobre conceitos (QLoRA, orquestração), sobrecarga com a interface ou os logs, e usaram estratégias de tentativa e erro mais aleatórias para depuração. Relataram sentir-se "perdidos" ou "sobrecarregados".

● Especialistas: Demonstraram modelos mentais mais claros do processo, usaram heurísticas baseadas em experiências anteriores ("Sei que com Q4 preciso de uma taxa de aprendizado menor"), empregaram estratégias de depuração mais sistemáticas (por exemplo, isolar o problema em um agente específico), e foram capazes de interpretar os dados de monitoramento (CL/CompL) de forma mais eficaz para guiar suas ações. Eles também relataram estratégias explícitas para gerenciar sua própria CL (por exemplo, fazer pausas, focar em uma parte do problema de cada vez).

5.3.1 Conclusão Parcial para H4

Os resultados forneceram forte suporte empírico para H4. A expertise atuou como um amortecedor cognitivo fulcral, permitindo que operadores habilidosos navegassem nos trade-offs CL-CompL de forma mais eficaz e eficiente. Eles experimentaram um aumento menor na CL sob condições difíceis e foram mais proficientes no gerenciamento da CompL e na obtenção de resultados positivos. Isso reforçou a necessidade de considerar as diferenças individuais no design de sistemas de IA locais como o CrossDebate e destacou a importância do treinamento focado não apenas no uso da ferramenta, mas na construção de modelos mentais robustos e estratégias metacognitivas relevantes.

5.4 RQ3/H3: Natureza da Relação CL-CompL (Não Linearidade)

A questão de pesquisa central (RQ3) e a hipótese associada (H3) investigaram a forma funcional da relação entre CL e CompL, postulando especificamente uma natureza não linear, em forma de U ou J, em vez de uma simples troca monotônica. Os resultados empíricos forneceram evidências convincentes para esta não linearidade, particularmente quando a CompL foi modulada através dos níveis de quantização GGUF (Q4 vs Q8) e seus efeitos na qualidade e estabilidade do modelo.

● Evidência Estatística de Não Linearidade:

● Regressão Polinomial (via GLMMs): Modelos GLMM foram ajustados para prever indicadores chave de CL (por exemplo, Escore Total TLX, Diâmetro Pupilar) usando o Nível de Quantização como preditor categórico (representando níveis distintos de CompL/Qualidade). A comparação entre um modelo linear (assumindo uma mudança igual na CL ao passar de Q8 para Q4) e um modelo que permitia efeitos diferentes (o que é inerente a um fator categórico com mais de 2 níveis, mas aqui simulado pela ideia de um ponto ótimo) mostrou que a relação não era simplesmente linear. Mais formalmente, ao tratar a CompL (por exemplo, VRAM média) como um preditor contínuo (embora correlacionado com a quantização), a adição de um termo quadrático (CompL²) aos GLMMs que previam CL melhorou significativamente o ajuste do modelo em comparação com um modelo apenas linear (LRTs significativos, p < 0.01 para várias VDs de CL). Os coeficientes quadráticos foram consistentemente positivos para medidas de carga/esforço/frustração, indicando uma relação convexa (em forma de U ou J).

● Modelos Aditivos Generalizados Mistos (GAMMs): Para explorar a forma da relação de maneira mais flexível e baseada nos dados, GAMMs foram ajustados com termos suaves (splines) para preditores de CompL (como uma métrica combinada de CompL/Qualidade). A comparação do ajuste do modelo (via LRTs) entre os GAMMs e os GLMMs lineares aninhados confirmou que os modelos não lineares forneceram um ajuste significativamente melhor aos dados (p < 0.01). As funções suaves estimadas para a relação entre CompL e CL exibiram visualmente a forma de J ou U prevista: a CL era alta em níveis baixos de CompL (associados a Q4), diminuía para um mínimo em níveis moderados de CompL (associados a Q8), e aumentaria novamente se níveis ainda mais altos de CompL (por exemplo, fluxos paralelos muito pesados) fossem considerados (embora o limite superior fosse menos explorado neste estudo devido às restrições de hardware).

● Padrão da Relação Não Linear Observada: O padrão consistente observado, especialmente ao considerar a quantização como o principal modulador da CompL/Qualidade, alinhou-se com a hipótese H3:

● CompL Baixa (Q4): Associada a CL Alta. Embora os requisitos de hardware fossem mínimos, a baixa qualidade, instabilidade e imprevisibilidade do modelo GGUF exigiram alto esforço cognitivo para interpretação, avaliação, depuração e compensação (alta ICL e ECL). A frustração também foi alta.

● CompL Moderada (Q8): Associada a CL Mínima (o "ponto ideal"). Neste nível, a CompL ainda era gerenciável na maioria do hardware testado (especialmente a RTX 3060/12GB), e a qualidade/estabilidade do modelo era suficientemente alta para permitir uma interação mais fluida, previsível e confiável. Isso minimizou a ICL interpretativa e a ECL relacionada a falhas e depuração, resultando na menor CL geral percebida e fisiológica.

● CompL Alta (Hipotética/Extrapolada): Embora menos diretamente testado com quantização (pois Q8 já era o nível mais alto), os resultados dos fluxos multi-agente paralelos que levaram a lentidão extrema sugeriram que empurrar a CompL para além dos limites do hardware também levaria a CL Alta, principalmente devido à frustração, espera e à carga extrínseca de gerenciar recursos escassos e lidar com falhas do sistema.

● Suporte Qualitativo: Os dados de pensamento em voz alta corroboraram este padrão não linear. Os participantes não buscavam simplesmente minimizar a CompL a todo custo. Em vez disso, eles frequentemente descreveram a busca por um equilíbrio entre eficiência computacional (velocidade, uso de VRAM) e eficácia/confiabilidade do modelo. Muitos expressaram preferência pela condição Q8, mesmo que fosse um pouco mais lenta, porque era "mais confiável", indicando uma disposição para aceitar uma CompL moderada para minimizar a CL. Frases como "Q4 é rápido, mas não vale a pena o estresse" ou "Prefiro esperar um pouco mais pelo Q8 e ter certeza do resultado" foram comuns.

5.4.1 Conclusão Parcial para RQ3/H3

Os resultados forneceram forte suporte empírico para H3, demonstrando que a relação entre CL e CompL (pelo menos quando modulada pela qualidade/estabilidade do modelo via quantização GGUF) não é linear, mas segue uma curva em forma de J ou U. Existe um "ponto ideal" de CompL/Qualidade moderada (representado pela condição Q8 neste estudo) que minimiza a CL geral do operador. Operar nos extremos – CompL muito baixa com baixa qualidade (Q4), ou CompL excessivamente alta que sobrecarrega o hardware – leva a uma CL subótima e prejudica a experiência e o desempenho do usuário. Este achado é primordial, implicando que a otimização de sistemas de IA locais interativos não deve focar apenas na minimização da CompL, mas sim na busca ativa e dinâmica deste equilíbrio ótimo CL-CompL. A existência desse ponto ideal também pode ser relevante ao considerar o uso de modelos de raciocínio (Marjanović et al., 2025) ou dados destilados (Wang et al., 2025a), onde o aumento da CompL para obter melhor raciocínio ou qualidade de dados pode ser benéfico até certo ponto, mas pode se tornar contraproducente se a CL gerencial ou interpretativa aumentar excessivamente.

5.5 Síntese dos Achados Gerais da Seção de Resultados

Considerados em conjunto, os resultados empíricos pintaram um quadro coeso e matizado da interação humano-IA no ajuste fino local de LLMs GGUF e no gerenciamento de fluxos de trabalho multi-agente em hardware de consumidor:

1. Interdependência Crítica CL-CompL: Foi confirmado empiricamente que a CL humana e a CompL do sistema estão intrinsecamente e dinamicamente ligadas. Manipulações que alteram a CompL (Quantização GGUF Q4 vs Q8, Complexidade do Fluxo) têm consequências diretas, significativas e muitas vezes substanciais na CL do operador, medidas através de múltiplos canais (subjetivo, fisiológico, comportamental).

2. Trade-off da Quantização: A quantização GGUF agressiva (Q4) reduziu com sucesso a CompL (VRAM, energia), mas aumentou significativamente a CL e degradou o desempenho da tarefa em comparação com uma quantização mais conservadora (Q8) (H1 confirmada).

3. Sobrecarga da Orquestração Multi-Agente: Fluxos de trabalho multi-agente aumentaram a CompL agregada e, mais importante para a interação humana, aumentaram significativamente a CL gerencial devido à sobrecarga de configuração, monitoramento e depuração, levando a menores taxas de sucesso (H2 confirmada).

4. Não Linearidade e Ponto Ideal: A relação entre CL e CompL (modulada pela qualidade/estabilidade via quantização) revelou-se não linear (forma de J/U), com uma zona ótima de CompL/Qualidade moderada (Q8) minimizando a CL geral (H3 confirmada).

5. Moderação pela Expertise: A expertise prévia do operador atuou como um amortecedor significativo, reduzindo o impacto negativo de condições desafiadoras (Q4, Multi-Agente) na CL e melhorando o gerenciamento da CompL e o desempenho da tarefa (H4 confirmada).

6. Importância do Monitoramento Multimodal: A convergência entre medidas subjetivas, fisiológicas e comportamentais de CL fortaleceu a validade dos achados e demonstrou a utilidade de uma abordagem multimodal para avaliar a experiência do usuário em interações complexas com IA.

7. Necessidade de Design Centrado no Humano e Co-Adaptativo: Os resultados destacam coletivamente a necessidade de projetar sistemas de IA locais (como a plataforma CrossDebate) que vão além da simples otimização computacional. Tais sistemas devem gerenciar ativamente a interação CL-CompL, visualizar os trade-offs, adaptar-se às diferenças de expertise e ajudar os usuários a operar dentro da zona ótima de equilíbrio cognitivo-computacional.

Estes achados forneceram uma base empírica rica e detalhada para a discussão subsequente (Seção 6) sobre as implicações teóricas e práticas desses resultados, as limitações do estudo e as direções futuras para a pesquisa e o design de sistemas de IA locais co-adaptativos e verdadeiramente centrados no humano.

6. DISCUSSÃO

Os resultados empíricos apresentados na seção anterior forneceram uma visão multifacetada e, por vezes, contraintuitiva da complexa interação entre a Carga Cognitiva (CL) humana e a Carga Computacional (CompL) do sistema. Este fenômeno foi investigado no contexto específico e altamente relevante do ajuste fino local (QLoRA) e do gerenciamento de fluxos de trabalho multi-agente envolvendo Grandes Modelos de Linguagem (LLMs) quantizados no formato GGUF (especificamente, 30 modelos Q4 e 30 Q8) em hardware de consumidor. Esta seção discute o significado desses achados, interpretando-os à luz do quadro conceitual proposto, que integra a Teoria da Carga Cognitiva (CLT), princípios de Interação Humano-Computador (HCI), gerenciamento de recursos computacionais e a literatura sobre expertise e eficiência de LLMs. O objetivo é extrair implicações teóricas e práticas significativas, reconhecer as nuances dos trade-offs observados, e posicionar as contribuições deste estudo no campo mais amplo e crescente da IA centrada no humano e da computação neurofisiológica aplicada. Argumentamos que os resultados não apenas validam as hipóteses iniciais, mas também pintam um quadro que exige uma reconsideração fundamental de como projetamos e interagimos com sistemas de IA locais, especialmente à medida que entramos no que Xia et al. (2025) denominam "Ato II" da IA generativa – a era da engenharia da cognição.

6.1 Visão Geral: Navegando na Interdependência Cognitivo-Computacional em Sistemas de IA Locais

O tema central e unificador que emergiu dos resultados foi a necessidade crítica de superar a otimização isolada de fatores puramente humanos (como minimizar a CL a todo custo) ou fatores puramente de sistema (como minimizar a CompL implacavelmente). Em vez disso, os achados apontaram inequivocamente para a necessidade de uma filosofia de co-design e co-adaptação que reconhece, monitora e gerencia explicitamente a interdependência dinâmica e frequentemente não linear entre a CL do operador e a CompL da máquina. Esta perspectiva alinha-se com a visão mais ampla da "Engenharia da Cognição" proposta por Xia et al. (2025), que argumenta que o avanço da IA agora depende menos da escala bruta (o "Ato I") e mais da construção sistemática e otimização das capacidades de pensamento da IA através de paradigmas como o escalonamento em tempo de teste (test-time scaling) e o aprendizado por reforço. Gerenciar a interação CL-CompL é, portanto, uma faceta fundamental desta engenharia da cognição aplicada ao contexto humano-no-loop.

○ Argumentou-se, e os dados suportaram, que esta abordagem holística é essencial para realizar o potencial democratizador dos LLMs locais acessíveis (como os GGUF Q4/Q8) sem sobrecarregar cognitivamente os operadores humanos ou exceder as limitações práticas do hardware de consumidor (RTX 3060/4050). A plataforma CrossDebate, com sua arquitetura React/FastAPI e capacidade de integrar monitoramento em tempo real de indicadores psicofisiológicos (POG, EEG, PPG/HRV, SpO2 via LSL) e computacionais (VRAM, energia, térmica via psutil/nvidia-smi), foi concebida como um protótipo para explorar essa abordagem co-adaptativa. Os desafios enfrentados na construção e operação de tal sistema espelham diretamente as dificuldades mais amplas identificadas na transição de MLOps para LLMOps/FMOps (Pahune e Akhtar, 2025; Tantithamthavorn et al., 2025), particularmente no que diz respeito ao gerenciamento do ciclo de vida (incluindo ajuste fino), escalabilidade, considerações éticas e a necessidade de novas ferramentas e infraestrutura para lidar com a complexidade inerente dos modelos fundacionais e seus fluxos de trabalho associados. Além disso, os problemas encontrados na interação com modelos GGUF e na orquestração de agentes refletem os desafios de engenharia de software para FMware destacados por Hassan et al. (2025), como a necessidade de melhor observabilidade, gerenciamento de desempenho sob restrições e garantia de qualidade em face do não determinismo. Esta discussão interpretará os principais achados (H1, H2, H3, H4) em relação a este quadro, conectando-os à literatura revisada e extraindo implicações concretas para o design de futuros sistemas de IA locais que sejam não apenas computacionalmente eficientes, mas também cognitivamente ergonômicos e eficazes.

6.2 O Custo Cognitivo da Economia Computacional: Interpretando o Trade-off da Quantização GGUF (H1)

○ A forte confirmação da Hipótese 1 – que reduzir a CompL através de quantização GGUF agressiva (Q4 em comparação com Q8) aumentou significativamente a CL do operador – forneceu uma base empírica fulcral para um trade-off frequentemente discutido, mas raramente medido sistematicamente no nexo da interação humana direta com o processo de ajuste fino e avaliação de LLMs locais. Enquanto os benefícios da quantização para reduzir VRAM, tamanho do modelo e consumo de energia foram claros, quantificáveis e alinhados com a literatura (Nagel et al., 2021; Dettmers et al., 2023; Gholami et al., 2021; Husom et al., 2025; Jia et al., 2025), nossos resultados (Seção 5.1) destacaram o custo humano, frequentemente oculto, dessa eficiência computacional. Este achado é particularmente relevante no contexto de tornar LLMs acessíveis em hardware de consumidor, um objetivo compartilhado por esforços como o projeto llama.cpp (Zhao e Yaun, 2025) e frameworks como Ollama (Husom et al., 2025). No entanto, nossa pesquisa sugere que a mera viabilidade computacional não é suficiente; a usabilidade cognitiva deve ser considerada.

○ Conectando com a Teoria da Carga Cognitiva (CLT): Os achados ilustraram vividamente os princípios da CLT (Sweller, 1988; Paas e van Merriënboer, 1994; Sweller et al., 1998; Gkintoni et al., 2025) em um domínio tecnológico novo e complexo.

○ Aumento da Carga Intrínseca (ICL): A maior ICL ao trabalhar com modelos Q4 resultou diretamente da maior interatividade de elementos (Sweller, 2010) necessária para processar informações de um sistema menos confiável e de menor fidelidade. O operador precisou lidar simultaneamente com a tarefa principal (por exemplo, avaliar a qualidade semântica de uma sumarização) e com a incerteza introduzida pela quantização (por exemplo, "Esta falha é devido ao prompt, aos dados de ajuste fino, ou é um artefato da quantização Q4?"). Interpretar saídas ambíguas ou factualmente incorretas – fenômenos mais prováveis em modelos agressivamente quantizados (Yao et al., 2022; Kim et al., 2023), ou mesmo em modelos de raciocínio com cadeias de pensamento longas e potencialmente falhas (Marjanović et al., 2025; Chen et al., 2025) – exige que o operador mantenha mais hipóteses ativas na memória de trabalho, compare a saída com expectativas mais complexas e engaje em raciocínio diagnóstico mais profundo. A tarefa intrínseca de "avaliar a qualidade da saída do LLM", um desafio central na garantia de qualidade para FMware (Hassan et al., 2025), tornou-se inerentemente mais complexa (maior ICL) quando a qualidade era degradada ou menos previsível. A dificuldade em avaliar a qualidade sob não determinismo (Hassan et al., 2025) é exacerbada pela quantização.

○ Aumento da Carga Extrínseca (ECL): A maior ECL surgiu de múltiplos fatores relacionados ao design da interação com um sistema menos estável (Sweller e Chandler, 1994). O processo de depuração mais frequente e complexo necessário para lidar com falhas de convergência, erros OOM (mesmo com QLoRA, devido a picos inesperados) ou saídas consistentemente ruins dos modelos Q4 consumiu recursos cognitivos que não contribuíam diretamente para a tarefa principal ou para a aprendizagem – uma forma clássica de ECL. A interface React/FastAPI, se não fornecesse feedback diagnóstico claro e acionável sobre o estado do modelo quantizado (por exemplo, métricas de instabilidade, visualização de ativações problemáticas) ou se fosse lenta e não responsiva (potencialmente exacerbado pela própria CompL), poderia amplificar essa ECL (Doherty e Kelisky, 1979). A necessidade de engenharia de prompt mais iterativa e cuidadosa – um processo já conhecido por ser tedioso (Hassan et al., 2025; Spiess et al., 2025) – ou de múltiplas tentativas de ajuste fino para obter um resultado minimamente aceitável de um modelo Q4 também contribuiu significativamente para a ECL, desviando o esforço do usuário da tarefa substantiva. A falta de ferramentas integradas e maduras para o ciclo de vida do FMware (Hassan et al., 2025) torna essa depuração ainda mais onerosa.

● Impacto Negativo na Carga Germânica (GCL): O esforço cognitivo despendido lutando contra a falta de confiabilidade e a instabilidade do modelo (alta ICL e ECL) inevitavelmente desviou recursos limitados da memória de trabalho da aprendizagem mais profunda e significativa (GCL) (Sweller, 2010). Em vez de construir esquemas robustos sobre a tarefa de análise de dados subjacente ou sobre estratégias de ajuste fino eficazes, o operador estava frequentemente atolado em "apagar incêndios" cognitivos causados pelas deficiências do modelo Q4. Isso contrastou com cenários ideais onde a redução da complexidade extrínseca do sistema libera capacidade para GCL (Gerjets et al., 2004; van Merriënboer e Sweller, 2005). Aqui, a quantização Q4, embora reduzisse a complexidade computacional, paradoxalmente aumentou a complexidade cognitiva da interação humano-modelo no loop de ajuste fino e avaliação, prejudicando a aprendizagem e o desenvolvimento de expertise.

● Conectando com a Interação Humano-Computador (HCI): Este achado ressoou com princípios fundamentais de HCI relativos à previsibilidade do sistema, feedback significativo e tratamento de erros gracioso (Nielsen, 1993; Norman, 1988). Modelos GGUF agressivamente quantizados (Q4) frequentemente violaram esses princípios ao fornecer saídas menos previsíveis, gerar "falhas silenciosas" (saídas sintaticamente corretas, mas semanticamente sem sentido) ou falhar de maneiras não óbvias para o usuário. Isso forçou o usuário a um papel de monitoramento mais exigente, menos gratificante e mais propenso a erros, ecoando a "ironia da automação", onde a tecnologia destinada a facilitar o trabalho acaba por aumentar a carga de trabalho do supervisor humano em situações não nominais ou críticas (Bainbridge, 1983). A frustração aumentada, capturada de forma robusta tanto subjetivamente (NASA-TLX) quanto fisiologicamente (HRV reduzida, consistente com estresse (Hjortskov et al., 2004; Ma et al., 2024)), sublinhou o impacto negativo na experiência do usuário (UX). Essa frustração poderia levar à rejeição da ferramenta, a estratégias de evitação (preferir sempre Q8, mesmo quando Q4 seria computacionalmente vantajoso) ou a uma diminuição da confiança no sistema (Buçinca et al., 2021) – um aspecto essencial para a adoção de IA confiável (Tantithamthavorn et al., 2025). A falta de um bom modelo mental por parte do usuário sobre como a quantização Q4 afetava especificamente o comportamento do modelo (além de apenas "reduzir a qualidade") contribuiu para essa dificuldade e frustração. Estudos sobre ferramentas de desenvolvimento assistidas por IA, como CodeAid (Kazemitabaar et al., 2024, 2025) ou Gitingest (Gitingest, 2021), também destacaram a importância da confiança, da capacidade de verificação e da interpretabilidade para a adoção eficaz dessas ferramentas pelos usuários. A dificuldade em garantir a qualidade sob não determinismo, como apontado por Hassan et al. (2025), é amplificada aqui.

○ Implicações Práticas para o Design (Plataforma CrossDebate): A confirmação robusta de H1 exigiu que a plataforma CrossDebate fosse projetada não apenas para permitir o uso de diferentes níveis de quantização, mas para ajudar ativamente os operadores a gerenciar o trade-off CL-CompL inerente.

○ Visualização Explícita do Trade-off: O frontend React precisou ir além de simplesmente mostrar métricas de CompL (VRAM usada, velocidade). Ele deveria visualizar explicitamente o trade-off, através de gráficos que plotassem a economia estimada de CompL versus a potencial degradação da qualidade (com base em benchmarks pré-computados ou heurísticas) e, idealmente, uma estimativa do aumento esperado na CL (baseado em modelos preditivos treinados com dados como os deste estudo) para diferentes níveis GGUF (Q4 vs Q8). Isso ajudaria o usuário a tomar uma decisão informada, alinhada com os princípios de transparência defendidos em IA confiável (Tantithamthavorn et al., 2025).

○ Orientação Contextual e Adaptativa: O sistema, combinando o monitoramento de CL (fisiológico e subjetivo) e CompL (via backend FastAPI), poderia oferecer orientação contextual. Por exemplo, se o sistema detectasse sinais de alta CL (por exemplo, HRV baixa, Teta EEG alta, relatos de alta frustração) juntamente com falhas frequentes de treinamento ao usar um modelo Q4, a interface React poderia sugerir proativamente: "Detectamos que você está enfrentando dificuldades e altos níveis de carga cognitiva com o modelo Q4. Para esta tarefa, o modelo Q8 pode oferecer maior estabilidade e reduzir seu esforço, embora consuma mais VRAM. Gostaria de tentar?" Esta adaptação reflete a necessidade de sistemas mais inteligentes no ciclo LLMOps (Pahune e Akhtar, 2025).

○ Gerenciamento de Expectativas e Suporte à Depuração: A interface precisou gerenciar as expectativas do usuário, indicando claramente que níveis de quantização mais baixos (Q4) poderiam exigir mais iteração, paciência e esforço interpretativo. Além disso, ferramentas de depuração aprimoradas, específicas para problemas relacionados à quantização (por exemplo, visualização de outliers de ativação, sugestões de hiperparâmetros QLoRA mais robustos para modelos de baixa precisão), poderiam ajudar a reduzir a ECL associada à depuração de modelos Q4. A integração com ferramentas de observabilidade semântica (Hassan et al., 2025) poderia ser explorada aqui. A necessidade de compressão de modelos (Ni et al., 2025) deve ser balanceada com a usabilidade.

○ Em suma, o trade-off quantização-CL significou que a escolha do nível de GGUF (Q4 vs Q8) não foi apenas uma decisão técnica sobre otimização de CompL, mas uma decisão fundamental de design de interação humano-IA que afetou diretamente a carga cognitiva, a experiência do usuário, a produtividade e, em última análise, a viabilidade prática do ajuste fino local. Ignorar o polo da CL nesse trade-off levaria a sistemas que, embora computacionalmente eficientes no papel, seriam cognitivamente insustentáveis ou frustrantes na prática. A busca por modelos "super-minúsculos" (Ni et al., 2025) deve, portanto, considerar cuidadosamente esse custo cognitivo humano.

6.3 O Fardo da Orquestração: Complexidade do Fluxo de Trabalho Multi-Agente, CL e CompL (H2)

○ O achado de que fluxos de trabalho multi-agente (Sequencial e Paralelo/Complexo) aumentaram tanto a CompL agregada quanto, de forma mais problemática para a interação humana, a CL geral do operador (devido à sobrecarga de gerenciamento) forneceu uma perspectiva sóbria, porém primordial, sobre o estado atual da orquestração de sistemas de IA complexos, especialmente em ambientes locais com recursos limitados. Embora a promessa de dividir tarefas complexas entre agentes LLM especializados seja conceitualmente atraente e uma área de intensa pesquisa e desenvolvimento (Wu et al., 2023; Hong et al., 2023; Luo et al., 2025b; Liu et al., 2025; OpenAI, 2025; Xia et al., 2025), nossos resultados (Seção 5.2) sugeriram que, com as ferramentas e interfaces atuais (incluindo nossa implementação inicial no CrossDebate), a sobrecarga cognitiva de gerenciar essas interações poderia facilmente superar os benefícios da modularidade e especialização, especialmente quando combinada com as restrições de CompL do hardware local. Este desafio é central para a operacionalização de LLMs (LLMOps) em cenários práticos (Pahune e Akhtar, 2025).

○ Conectando com Engenharia de Sistemas e Gerenciamento de Processos: O aumento da CL ao gerenciar fluxos multi-agente alinhou-se com conceitos bem estabelecidos de custos de coordenação e complexidade de interface em sistemas modulares ou distribuídos (Baldwin e Clark, 2000; Sosa et al., 2004). O operador humano, atuando como o orquestrador (ou supervisor do orquestrador FastAPI), precisou investir recursos cognitivos significativos em:

○ Configuração: Selecionar os agentes GGUF apropriados do enxame de 60, definir suas funções, especificar as dependências de dados e controle entre eles, e configurar parâmetros para cada um – uma tarefa combinatória e conceitualmente complexa. A dificuldade na engenharia de prompts e configurações de agentes (Hassan et al., 2025; Spiess et al., 2025) é amplificada em cenários multi-agente.

○ Monitoramento: Rastrear o estado de execução de múltiplos agentes (possivelmente concorrentes), identificar gargalos ou falhas em agentes específicos e entender o fluxo geral de informações. A necessidade de "observabilidade semântica" (Hassan et al., 2025) torna-se ainda mais crítica aqui.

○ Depuração: Diagnosticar problemas que poderiam surgir de erros em um único agente, falhas na comunicação inter-agente, ou interações inesperadas entre eles (efeitos em cascata). A falta de ferramentas de depuração adequadas para sistemas multi-agente é um desafio reconhecido (Hassan et al., 2025).

○ Integração: Sintetizar as saídas parciais de múltiplos agentes em um resultado final coerente e útil. Cada uma dessas atividades impôs uma carga significativa na memória de trabalho e nas funções executivas (planejamento, atenção, monitoramento) do operador. Esta foi essencialmente uma tarefa de gerenciamento de fluxo de trabalho (van der Aalst, 2016; Weske, 2019), mas aplicada a agentes de IA probabilísticos e operando sob restrições de CL e CompL. Se as ferramentas fornecidas (nossa interface React e lógica de orquestração FastAPI) não suportassem adequadamente essas subtarefas de gerenciamento, a ECL poderia rapidamente se tornar proibitiva, como indicado pelos altos escores de Demanda Mental, Esforço e Frustração no NASA-TLX. O fato de que tanto fluxos Sequenciais (que aumentam a duração e a complexidade de rastreamento) quanto Paralelos/Complexos (que aumentam a complexidade de sincronização e os picos de CompL) aumentaram a CL sugeriu que o gargalo residia fundamentalmente no aspecto de gerenciamento cognitivo da orquestração, apontando para limitações na camada de suporte ao usuário (interface e abstrações de orquestração). A dificuldade em gerenciar o ciclo de vida completo desses sistemas complexos é um tema central em LLMOps (Pahune e Akhtar, 2025; Tantithamthavorn et al., 2025).

○ Conectando com Cognição Distribuída e HCI: De uma perspectiva de cognição distribuída (Hollan et al., 2000), o sistema cognitivo relevante aqui não era apenas o operador humano, mas o conjunto {Operador + Interface React + Backend FastAPI + Enxame de Agentes GGUF}. Para atingir o objetivo geral da tarefa, o processamento de informações e o controle precisavam ser coordenados eficazmente através dos componentes deste sistema distribuído. Nossos resultados sugeriram que a carga cognitiva para as tarefas de coordenação e gerenciamento estava desproporcionalmente alocada ao operador humano. A interface React precisava fornecer representações externas (Zhang e Norman, 1994) muito mais eficazes do estado do fluxo de trabalho, das dependências entre agentes, do progresso de cada agente e dos problemas potenciais, a fim de descarregar parte desse fardo da memória de trabalho limitada do operador. Visualizações claras e interativas do grafo do fluxo de trabalho (usando nós e arestas, ou mesmo representações mais ricas como hipergrafos para interações complexas (Feng et al., 2023, 2024; Liu et al., 2025)) dentro do frontend React seriam cruciais para tornar a estrutura e o estado do fluxo de trabalho mais compreensíveis e gerenciáveis (Heer e Shneiderman, 2012). A falta de tais representações eficazes em nossa implementação inicial contribuiu significativamente para a ECL observada. Além disso, a capacidade de "inspecionar" o estado interno ou o processo de raciocínio de um agente individual (Liu et al., 2025; Marjanović et al., 2025; Wang et al., 2025c), embora útil para depuração, também adicionaria complexidade à interface e à carga de monitoramento se não fosse bem projetada.

○ Conectando com Raciocínio de Agentes e Ferramentas: A complexidade cognitiva da orquestração seria ainda maior se os agentes individuais dentro do fluxo de trabalho empregassem raciocínio complexo internamente (por exemplo, usando Cadeia de Pensamento (Wei et al., 2022a), Árvore de Pensamentos (Yao et al., 2023; Kumar et al., 2025), ou mesmo os processos de raciocínio explícitos de modelos como DeepSeek-R1 (Marjanović et al., 2025; Wang et al., 2025c; Xia et al., 2025)) ou se utilizassem ferramentas externas via protocolos como MCP (Ghosh, 2025; Ahmadi et al., 2024; Zhao et al., 2025b). Nesses casos, o operador humano precisaria não apenas gerenciar as interações entre os agentes, mas também entender e depurar o processo interno de cada agente ou o uso de suas ferramentas. Isso aumentaria ainda mais a ICL (compreender o raciocínio do agente) e a ECL (navegar em interfaces de depuração mais complexas). A necessidade de projetar agentes que sejam não apenas capazes, mas também interpretáveis e depuráveis (Liu et al., 2025), torna-se ainda mais crítica em cenários multi-agente gerenciados por humanos. O design de ferramentas e guardrails robustos, como discutido em (OpenAI, 2025), é essencial, mas também adiciona complexidade à configuração e gerenciamento. A eficiência das chamadas de ferramentas (Wang et al., 2025d; Zhao et al., 2025b) torna-se um fator crítico tanto para CompL quanto para CL (espera, depuração de falhas de ferramentas).

○ Implicações Práticas para o Design (Plataforma CrossDebate): Este achado motivou fortemente a necessidade de melhorias substanciais nas capacidades de orquestração e, principalmente, na interface do usuário do nosso sistema CrossDebate para tornar os fluxos de trabalho multi-agente mais viáveis cognitivamente em hardware local.

○ Editor/Visualizador de Fluxo de Trabalho Gráfico: O frontend React precisou evoluir de um simples monitor para um ambiente de desenvolvimento integrado (IDE) para fluxos de trabalho multi-agente. Um editor visual intuitivo (baseado em nós e arestas, ou usando metáforas de nível superior como "pipelines" ou "conversas") para definir, modificar e, fulcralmente, visualizar dinamicamente a estrutura e o estado de execução do fluxo de trabalho, gerenciado pelo FastAPI, poderia reduzir drasticamente a ECL de configuração e monitoramento. A visualização deveria mostrar claramente os agentes GGUF selecionados, as conexões de dados, o status de cada agente (ocioso, executando, sucesso, falha) e destacar gargalos ou erros em tempo real. Ferramentas como PDL (Spiess et al., 2025) poderiam fornecer uma linguagem estruturada para definir esses fluxos, facilitando a visualização e a otimização automática (AutoPDL).

○ Abstrações de Orquestração de Alto Nível: O backend FastAPI precisou fornecer abstrações de programação mais poderosas e de mais alto nível (inspiradas em frameworks de orquestração de dados como Dagster ou Prefect, ou frameworks de agentes como LangGraph (LangChain, 2024) ou AutoGen (Luo et al., 2025b), mas adaptadas para LLMs GGUF locais e a interação CL-CompL) para gerenciar a execução, dependências, passagem de estado, tratamento de erros e novas tentativas de forma mais robusta e com menos sobrecarga de configuração manual explícita para o usuário. A automação de partes do ciclo LLMOps (Pahune e Akhtar, 2025) é fundamental aqui.

○ Verificações Automatizadas e Validação Pré-Execução: O backend FastAPI deveria incorporar mais verificações automatizadas para a validade lógica e de recursos do fluxo de trabalho antes da execução. Isso poderia incluir verificar a compatibilidade de tipos de dados entre as saídas e entradas dos agentes (usando validação como Pydantic), detectar ciclos potenciais em grafos de dependência, e até mesmo estimar a CompL de pico (especialmente VRAM) para fluxos paralelos e alertar o usuário se ela exceder os limites do hardware. Isso descarregaria parte da carga de verificação do operador, alinhando-se com a necessidade de maior automação em MLOps/LLMOps (Tantithamthavorn et al., 2025).

○ Padronização da Comunicação e Ferramentas (por exemplo, MCP): Adotar e integrar padrões como MCP (Ghosh, 2025; Ahmadi et al., 2024; Zhao et al., 2025a) para a comunicação inter-agente ou para o uso de ferramentas externas poderia simplificar a integração de novos agentes ou ferramentas no enxame e reduzir a carga cognitiva associada ao gerenciamento de interfaces heterogêneas. No entanto, a própria configuração e gerenciamento da privacidade e segurança dessas interações (Radosevich et al., 2025; Pahune e Akhtar, 2025; Hassan et al., 2025) precisariam ser cuidadosamente projetados na interface para não introduzir nova ECL. A avaliação da eficiência dessas ferramentas (Zhao et al., 2025a) também se torna parte da tarefa de gerenciamento.

Os resultados para H2 sugeriram fortemente que simplesmente fornecer a capacidade técnica de executar fluxos de trabalho multi-agente GGUF localmente era insuficiente. Um investimento significativo precisou ser feito na gerenciabilidade cognitiva da camada de orquestração – tanto no frontend React (visualização, interação) quanto no backend FastAPI (abstrações, validação) – para tornar tais sistemas praticamente utilizáveis por operadores humanos em ambientes com recursos limitados. Sem isso, a complexidade da coordenação poderia rapidamente superar os benefícios da especialização e do paralelismo dos agentes, tornando a abordagem multi-agente contraproducente em termos de esforço humano e taxa de sucesso. A promessa de "Mistura de Agentes" (Wang et al., 2024c, Xia et al., 2025) requer ferramentas robustas de orquestração e interfaces centradas no humano para ser realizada na prática, especialmente fora de ambientes de computação de alto desempenho.

6.4 O Ponto Ideal: Aprofundando a Não Linearidade na Relação CL-CompL (H3)

A confirmação empírica de uma relação não linear (em forma de U ou J) entre a Carga Cognitiva (CL) e a Carga Computacional (CompL), particularmente quando a CompL foi modulada pela qualidade/estabilidade do modelo através da quantização GGUF (Hipótese 3), representou um dos achados mais intrigantes e potencialmente impactantes desta investigação. Este padrão (detalhado na Seção 5.4) desafiou modelos mentais simplistas de uma troca monotônica ("menos CompL é sempre melhor" ou "mais CompL é sempre melhor") e sugeriu, em vez disso, uma dinâmica mais complexa onde o desempenho e o bem-estar cognitivo humano são otimizados em níveis intermediários de demanda computacional (ou, mais precisamente, em um nível intermediário de qualidade/estabilidade do modelo que resulta em CompL gerenciável), e não nos extremos.

● Ressonância com Modelos Psicológicos de Excitação e Desempenho: A forma de U observada para a CL (onde a CL foi alta em CompL baixa/qualidade baixa e alta em CompL alta/sobrecarga, e mínima em CompL moderada/qualidade adequada) espelhou notavelmente a relação clássica em forma de U invertido entre excitação (arousal) e desempenho descrita pela Lei de Yerkes-Dodson (Yerkes e Dodson, 1908; Hancock e Warm, 1989). Embora a CompL não seja diretamente "excitação", argumentou-se que as consequências da CompL no desempenho, na responsividade e na previsibilidade do sistema atuaram como um modulador chave do estado cognitivo-afetivo (incluindo esforço, frustração, engajamento) do operador.

○ CompL Muito Baixa (Q4 Agressiva): Correspondeu a um estado de sub-utilização computacional (em termos de recursos), mas sobrecarga cognitiva. O sistema era rápido (embora nem sempre, como visto em 5.1.1), mas a baixa qualidade, instabilidade e imprevisibilidade do modelo GGUF geraram alta incerteza, exigiram esforço compensatório excessivo do operador para interpretar e corrigir saídas, e levaram a alta frustração (alta ICL e ECL). Isso resultou em um estado de estresse ou sobrecarga cognitiva, prejudicando o desempenho da tarefa e a experiência do usuário. A dificuldade em obter resultados confiáveis de modelos de baixa precisão pode forçar o operador a gastar mais tempo e esforço em verificação e correção, aumentando a CL.

○ CompL Muito Alta (Hipotética: por exemplo, FFT ou Fluxos Paralelos Pesados em Hardware Limitado): Corresponderia a um estado de sobrecarga computacional e sobrecarga cognitiva. O sistema se tornaria lento, não responsivo, ou propenso a falhas catastróficas (OOMs), induzindo frustração devido à espera, tédio, e uma alta carga extrínseca (ECL) associada ao gerenciamento de recursos escassos, ao monitoramento de processos lentos e à recuperação de falhas (Wickens e Hollands, 2000). A CL aumentaria devido à ineficiência e à fricção na interação. A necessidade de gerenciar ativamente a CompL para evitar a sobrecarga adiciona outra camada de CL gerencial.

○ CompL Moderada (Q8 neste estudo - o "Ponto Ideal"): Representou a zona de equilíbrio ótimo. O hardware lidou eficientemente com a carga (CompL gerenciável), e a qualidade/estabilidade do modelo GGUF foi suficientemente alta para ser confiável e previsível na maioria das vezes. Isso minimizou a ICL interpretativa e a ECL relacionada a falhas e depuração, resultando na menor CL geral (subjetiva e fisiológica). Neste estado, o operador pôde alocar recursos cognitivos de forma mais eficaz para a tarefa principal (por exemplo, análise de dados) e para a aprendizagem germânica (GCL) sobre o processo de ajuste fino ou o domínio da tarefa, levando a um desempenho e satisfação ótimos.

● Conexão com Eficiência de Raciocínio e Test-Time Scaling: A existência de um "ponto ideal" também ressoa com pesquisas sobre a eficiência do raciocínio em LLMs e o escalonamento em tempo de teste (test-time scaling). Wang et al. (2025c) e Xia et al. (2025) discutem como alocar computação adicional durante a inferência (aumentando a CompL) pode melhorar o desempenho do raciocínio, mas apenas até certo ponto. Métodos como votação majoritária ou revisões sequenciais podem atingir um platô ou até degradar se a computação for excessiva ou mal direcionada. Da mesma forma, o fenômeno do "overthinking" (Chen et al., 2025), onde modelos de raciocínio gastam computação desnecessária sem melhorar a resposta, pode ser visto como operar além do ponto ideal de CompL para uma determinada tarefa. O trabalho de Pu et al. (2025) sobre calibração de dificuldade e o ThoughtTerminator visa explicitamente encontrar e impor um gasto de tokens (CompL) mais próximo do ótimo para a dificuldade da tarefa, alinhando-se com nossa descoberta de um ponto ideal CL-CompL. A relação não linear sugere que simplesmente maximizar o "tempo de pensamento" ou o número de etapas de raciocínio (aumentando a CompL) não garante nem o melhor desempenho nem a melhor experiência do usuário; um equilíbrio deve ser encontrado. A eficiência das chamadas de ferramentas (Wang et al., 2025d; Zhao et al., 2025b) também se encaixa aqui: usar a ferramenta de forma otimizada (nem demais, nem de menos) contribui para operar no ponto ideal.

● Implicações da CLT e HCI:

○ Otimização da Carga Total: A CLT enfatizou a importância de gerenciar a carga total na memória de trabalho (ICL+ECL+GCL) (Sweller, 2010; Sweller et al., 1998). A relação em forma de U demonstrou empiricamente que minimizar apenas a CompL (via quantização extrema Q4) não minimizou a CL total, pois aumentou drasticamente a ICL e a ECL associadas à interação com um modelo de baixa qualidade. O "ponto ideal" (Q8) representou o mínimo da soma (ICL+ECL), maximizando assim a capacidade residual da memória de trabalho disponível para GCL e para o desempenho eficaz da tarefa.

○ Usabilidade e Experiência do Usuário (UX): A zona ótima correspondeu ao ponto de maior usabilidade percebida e satisfação do usuário, onde o sistema atingiu o melhor equilíbrio entre eficiência (velocidade percebida, uso de recursos gerenciável) e eficácia/confiabilidade (qualidade da saída, previsibilidade, menos erros) (Nielsen, 1993; Hartson e Pyla, 2012). Operar nos extremos (Q4 ou sobrecarga) levou a uma UX pobre devido à frustração, esforço excessivo e resultados de tarefa inferiores.

● Variação do Ponto Ideal: Foi primordial reconhecer que a localização exata do "ponto ideal" na curva CL-CompL não era fixa. Ela dependeria de múltiplos fatores, incluindo: a tarefa específica (tarefas mais complexas podem exigir maior qualidade/CompL), a arquitetura e o tamanho do modelo base LLM (modelos maiores podem ter um ponto ideal diferente), as características específicas do hardware local (uma GPU mais potente poderia deslocar o ponto ideal para níveis de CompL mais altos), e, primordialmente, como confirmado por H4, a expertise do operador. Especialistas poderiam ser capazes de operar eficazmente com níveis de CompL/Qualidade mais baixos (tolerando melhor a CL associada) ou mais altos (gerenciando melhor a CompL) do que iniciantes. A escolha do padrão de prompt (Zero-Shot, CoT, ReAct, ReWOO), como explorado por Spiess et al. (2025), também pode influenciar onde o ponto ideal se encontra para uma determinada tarefa e modelo.

● Implicações para o Design (CrossDebate): A descoberta da não linearidade exigiu uma abordagem de design mais sofisticada e dinâmica para a plataforma CrossDebate.

○ Monitoramento Contínuo e Integrado: A plataforma precisou monitorar continuamente tanto múltiplos indicadores de CL (fisiológicos, subjetivos) quanto de CompL (VRAM, GPU, energia) para estimar o estado operacional atual do conjunto humano-máquina na curva CL-CompL. A integração com ferramentas de observabilidade do ciclo LLMOps (Pahune e Akhtar, 2025) seria benéfica.

○ Visualização da Relação e do Estado Atual: O frontend React deveria ir além de mostrar métricas isoladas. Ele poderia tentar visualizar a própria relação não linear (uma curva estilizada) e indicar onde o usuário estava operando atualmente, ajudando-o a entender os trade-offs e a distância do ponto ideal percebido.

○ Recomendações Contextuais para Navegar a Curva: O backend FastAPI, ao analisar os dados de monitoramento e detectar operação em um dos extremos subótimos (por exemplo, alta CL com baixa CompL/Q4, ou alta CL com CompL próxima aos limites do hardware), poderia gerar recomendações direcionadas na interface React para mover o usuário em direção ao ponto ideal (por exemplo, "Sugerimos tentar Q8 para reduzir o esforço", ou "Seu uso de VRAM está alto; considere reduzir o tamanho do lote ou usar um fluxo sequencial"). Essas recomendações poderiam até sugerir diferentes padrões de prompt ou estratégias de test-time scaling (Wang et al., 2025c, Xia et al., 2025) com base no estado atual.

○ Adaptação (Semi-)Automática (Potencial Futuro): Em uma visão mais avançada, o sistema poderia ajustar proativamente certos parâmetros (por exemplo, nível de quantização GGUF usado para um agente específico, tamanho do lote QLoRA, grau de paralelismo no fluxo, ou até mesmo parâmetros de estratégias como ThoughtTerminator (Chen et al., 2025) se aplicável) para tentar manter o operador perto da zona ótima, sempre com transparência, explicação e a possibilidade de controle e anulação pelo usuário (princípios de interação humano-IA (Amershi et al., 2019)).

Em suma, a relação não linear CL-CompL emergiu como um princípio fundamental governando a interação humano-IA em sistemas locais com recursos limitados. Reconhecer e projetar ativamente para o "ponto ideal" – que representa um equilíbrio dinâmico entre eficiência computacional, qualidade do modelo e capacidade cognitiva humana – foi primordial para criar ferramentas de IA que fossem simultaneamente poderosas, eficientes e cognitivamente sustentáveis para uso prolongado e produtivo. A busca por este equilíbrio é central para a engenharia da cognição (Xia et al., 2025) aplicada.

6.5 O Papel de Amortecedor da Expertise (H4)

A confirmação empírica de que a expertise do operador moderou significativamente os efeitos negativos da baixa quantização GGUF (Q4) e da alta complexidade do fluxo de trabalho (Multi-Agente) na Carga Cognitiva (H4) forneceu insights cruciais sobre as diferenças individuais na interação humano-IA e reforçou a necessidade de design adaptativo e treinamento direcionado. Os resultados (Seção 5.3) mostraram que, embora as condições objetivas fossem as mesmas, a experiência subjetiva e o desempenho objetivo diferiam substancialmente entre iniciantes e especialistas.

● Mecanismos Cognitivos Subjacentes (CLT, Esquemas, Automaticidade): A vantagem dos especialistas provavelmente derivou de seus esquemas cognitivos mais desenvolvidos e da automaticidade de processos de nível inferior, conforme postulado pela CLT e pela teoria da expertise (Sweller, 2010; Anderson, 1982; Chase e Simon, 1973).

○ Esquemas para GGUF/QLoRA/Fluxos: Especialistas possuíam modelos mentais mais ricos, precisos e organizados sobre como a quantização GGUF afetava o desempenho e a estabilidade de diferentes modelos, como os hiperparâmetros QLoRA (Afrin et al., 2025; Dettmers et al., 2023) interagiam e influenciavam o processo de treinamento, e como estruturar e depurar fluxos de trabalho multi-agente eficazes. Eles podiam reconhecer padrões familiares em logs ou saídas (como os analisados por Zhang et al., 2025b), recuperar rapidamente estratégias relevantes da memória de longo prazo e aplicar heurísticas eficazes, tratando configurações complexas como um único "chunk" em vez de múltiplos elementos separados. Isso reduziu a ICL percebida para a mesma tarefa objetiva (Kalyuga et al., 2003; Sweller, 2010). A capacidade de entender rapidamente o ciclo de vida do LLMOps (Pahune e Akhtar, 2025) e os desafios associados (Hassan et al., 2025) diferenciava os especialistas.

○ Automaticidade da Interface e Ferramentas: A interação com a interface React da plataforma CrossDebate e com as ferramentas subjacentes (Python, linha de comando, bibliotecas de LLM como llama-cpp-python, peft, unsloth) era mais fluida e exigia menos atenção consciente para especialistas, liberando recursos da memória de trabalho. Isso reduziu a ECL associada à operação do sistema (Shiffrin e Schneider, 1977).

○ Habilidades Metacognitivas Aprimoradas: Especialistas demonstraram ser melhores em monitorar sua própria compreensão e carga cognitiva, em planejar estratégias de abordagem antes de iniciar uma tarefa complexa, em detectar erros ou anomalias mais rapidamente, e em ajustar sua abordagem de forma flexível com base no feedback do sistema ou em sua própria avaliação do progresso (Flavell, 1979; Zimmerman, 2002). Eles eram mais propensos a "saber o que não sabiam" e a buscar informações específicas quando necessário. Essa capacidade de auto-regulação é essencial ao lidar com sistemas complexos e não determinísticos como LLMs.

● Limites da Expertise e Efeito Reverso: É importante notar que a expertise não eliminou completamente os efeitos negativos das condições desafiadoras; mesmo especialistas mostraram aumento da CL com Q4 ou fluxos complexos, apenas em menor grau. Além disso, a expertise é específica do domínio; um especialista em LLMs poderia ainda ser um iniciante em gerenciamento de hardware ou design de fluxo de trabalho. Fundamentalmente, o efeito de expertise reversa (Kalyuga et al., 2003; Sweller, 2024) sugere que fornecer suporte excessivo ou orientação detalhada (projetada para iniciantes) a especialistas pode, na verdade, aumentar sua ECL, pois eles precisam processar informações redundantes que entram em conflito com seus esquemas automatizados.

● Implicações para o Design Adaptativo (CrossDebate): A moderação pela expertise exigiu fortemente que sistemas como o CrossDebate fossem adaptáveis ao nível de conhecimento e habilidade do usuário.

○ Modelagem do Usuário: O sistema precisaria de mecanismos para inferir ou permitir que o usuário declarasse seu nível de expertise (em diferentes dimensões: LLMs, QLoRA, Python, Hardware, React/FastAPI, etc.). Isso poderia ser feito através de perfis de usuário, questionários iniciais ou até mesmo inferência baseada no comportamento de interação com o sistema (por exemplo, velocidade de configuração, tipos de erros cometidos).

○ Adaptação da Interface e do Nível de Suporte: Com base no nível de expertise modelado, a plataforma CrossDebate poderia adaptar dinamicamente sua interface e o nível de orientação fornecido:

■ Para Iniciantes: Oferecer mais scaffolding (Wood et al., 1976), como tutoriais interativos, explicações conceituais sob demanda (por exemplo, sobre quantização GGUF ou parâmetros QLoRA), configurações padrão mais conservadoras e seguras (talvez começando com Q8), wizards passo a passo para tarefas complexas (configuração QLoRA, design de fluxo), e feedback mais detalhado e interpretável (por exemplo, traduzindo logs de erro técnicos em linguagem mais simples).

■ Para Especialistas: Oferecer mais controle direto sobre parâmetros avançados (por exemplo, opções de quantização GGUF mais finas, controle granular sobre LoRA), acesso a informações de monitoramento mais detalhadas e de baixo nível (por exemplo, histogramas de ativação, perfis de VRAM), menos interrupções ou sugestões (a menos que explicitamente solicitadas ou em caso de erro crítico), e interfaces mais densas em informações ou personalizáveis (por exemplo, permitindo scripts customizados no backend FastAPI). O objetivo seria evitar o efeito de expertise reversa e permitir que especialistas trabalhassem de forma eficiente.

○ Adaptação do "Ponto Ideal" CL-CompL: O sistema deveria reconhecer que o ponto ideal na curva CL-CompL (H3) poderia ser diferente para iniciantes e especialistas. Um especialista poderia tolerar ou até preferir um nível de CompL/Qualidade ligeiramente diferente (talvez aceitando um Q4 mais desafiador para máxima eficiência de VRAM, ou um fluxo paralelo mais complexo para máxima velocidade) do que um iniciante, que poderia priorizar a estabilidade e a facilidade de uso (preferindo Q8 e fluxos sequenciais). As recomendações do sistema (ver 6.4) deveriam levar isso em conta, talvez aprendendo as preferências individuais ao longo do tempo.

○ Implicações para Treinamento e Colaboração:

○ Foco na Construção de Expertise: Programas de treinamento para usar ferramentas como o CrossDebate não deveriam focar apenas em ensinar os comandos ou recursos da interface, mas sim em ajudar os usuários a construir modelos mentais robustos sobre os processos subjacentes (como a quantização afeta o modelo, como QLoRA funciona, princípios de design de fluxo de trabalho multi-agente, como interpretar sinais CL/CompL) e a desenvolver habilidades metacognitivas (monitoramento, planejamento, depuração estratégica). Isso é essencial para navegar eficazmente os trade-offs CL-CompL.

○ Apoio à Colaboração e Compartilhamento de Conhecimento: A plataforma poderia incorporar recursos para facilitar a colaboração entre usuários com diferentes níveis de expertise, permitindo que especialistas compartilhassem configurações (por exemplo, arquivos PDL otimizados, como em Spiess et al. 2025), fluxos de trabalho, dados de ajuste fino ou dicas de depuração com iniciantes, ou que iniciantes pudessem solicitar ajuda contextualizada. Isso poderia acelerar a curva de aprendizado e promover uma comunidade de prática em torno do uso eficaz de LLMs locais. A necessidade de colaboração é um tema recorrente em MLOps/LLMOps (Pahune e Akhtar, 2025; Tantithamthavorn et al., 2025).

Em conclusão, a expertise humana emergiu como um fator vital que medeia a complexa interação entre as demandas cognitivas do operador e os recursos computacionais da máquina. Projetar sistemas de IA locais que reconheçam, respeitem e se adaptem às diferenças de expertise, e investir em programas de treinamento que promovam o desenvolvimento dessa expertise, foram identificados como elementos cruciais para a adoção bem-sucedida e o uso produtivo de ferramentas avançadas de IA local como o CrossDebate.

6.6 Sintetizando a Interação: Rumo a Sistemas Co-Adaptativos Humano-IA

Os achados empíricos deste estudo, interpretados através das lentes integradas da CLT, HCI, gerenciamento de recursos computacionais e teorias de expertise, convergiram para uma conclusão central e prescritiva: otimizar a interação humano-IA no domínio desafiador do gerenciamento de LLMs locais (GGUF Q4/Q8) e fluxos de trabalho multi-agente em hardware de consumidor exige uma mudança de paradigma. Devemos passar de projetar sistemas estáticos, que tratam o humano e a máquina como entidades separadas a serem otimizadas independentemente, para projetar sistemas co-adaptativos.

● Tais sistemas reconhecem a interdependência dinâmica e não linear entre CL e CompL como uma característica fundamental e definidora da interação. Em vez de tentar eliminar a CL ou minimizar a CompL isoladamente, eles buscam gerenciar ativamente essa interdependência através de um ciclo de feedback contínuo. Este ciclo envolve o monitoramento multimodal do estado do conjunto humano-máquina e ajustes mútuos entre o operador humano e a plataforma de IA (CrossDebate) para manter o sistema operando em um regime de equilíbrio produtivo e sustentável. Esta visão alinha-se com a necessidade de abordagens mais centradas no humano e adaptativas na engenharia de IA (Xu, 2019) e na operacionalização de modelos complexos (Pahune e Akhtar, 2025).

● O Ciclo de Feedback CL-CompL como Núcleo do Sistema: A interdependência identificada – onde a CompL (influenciada por escolhas de quantização, complexidade do fluxo) afeta a CL, e a CL (influenciada por expertise, fadiga, estado afetivo) afeta as decisões e ações do operador que, por sua vez, impactam a CompL subsequente – forma um ciclo de feedback inerente. Este ciclo pode ser virtuoso, com o sistema operando eficientemente dentro da "zona ótima" (H3), ou pode tornar-se vicioso, com alta CL levando a erros que aumentam a CompL ou vice-versa, empurrando o sistema para os extremos subótimos da curva CL-CompL. Sistemas co-adaptativos visam ativamente estabilizar este ciclo na região ótima.

● Papel da Plataforma CrossDebate como Mediador: A plataforma CrossDebate, com sua arquitetura React/FastAPI e capacidades de monitoramento integrado, foi posicionada como o mediador essencial neste ciclo de feedback. Sua capacidade de:

1. Sensoriar: Coletar e sincronizar dados multimodais sobre CL (fisiológica, subjetiva, comportamental) e CompL (VRAM, GPU, energia, etc.) em tempo real. A integração de dados de logs (Zhang et al., 2025b) poderia fornecer contexto adicional.

2. Modelar: Processar e analisar esses dados para inferir o estado atual do operador e do sistema, e entender a relação CL-CompL dinâmica (usando modelos de aprendizado de máquina treinados offline ou online). Isso poderia incluir a previsão de desempenho futuro ou risco de sobrecarga.

3. Visualizar: Apresentar informações relevantes sobre o estado CL-CompL, os trade-offs envolvidos e o progresso da tarefa de forma clara e acionável na interface React, apoiando a consciência situacional do operador. Isso inclui visualizar a curva CL-CompL (H3) e a posição atual do usuário.

4. Agir (Recomendar/Adaptar): Com base na modelagem do estado CL-CompL, fornecer recomendações contextuais ao usuário ou, em implementações futuras, realizar adaptações (semi-)automáticas na configuração do sistema (por exemplo, nível de quantização GGUF, parâmetros QLoRA, estrutura do fluxo de trabalho, ou mesmo sugerir padrões de prompt via AutoPDL (Spiess et al. 2025)) para otimizar o equilíbrio CL-CompL, sempre mantendo a transparência e o controle do usuário.

● Mecanismos de Co-Adaptação: A adaptação neste ciclo é bidirecional (Hoc, 2000). O sistema se adapta ao estado do usuário (por exemplo, aumentando o nível de suporte se a CL estiver alta, sugerindo Q8 se Q4 estiver causando problemas). Simultaneamente, o operador humano se adapta ao estado e comportamento do sistema (por exemplo, ajustando suas estratégias de depuração com base no feedback, escolhendo um fluxo de trabalho mais simples se a CompL estiver alta, fazendo uma pausa se sentir a CL aumentar). Um sistema co-adaptativo bem projetado facilita e otimiza ambos os lados dessa adaptação mútua. Isso pode envolver não apenas ajustar parâmetros, mas também adaptar a própria interface ou o fluxo de trabalho, inspirado por como agentes de IA podem ser projetados para interagir e delegar tarefas (OpenAI, 2025; Xia et al., 2025).

● Conexão com a Engenharia da Cognição e Treinamento: A abordagem co-adaptativa ressoa fortemente com a visão da Engenharia da Cognição (Xia et al., 2025). Enquanto a Engenharia da Cognição foca em construir e otimizar as capacidades de pensamento da IA (muitas vezes através de test-time scaling ou RL), a abordagem co-adaptativa foca em otimizar a interação entre o pensamento humano e o pensamento (ou processamento) da IA no contexto de uma tarefa conjunta e sob restrições de recursos. As estratégias de treinamento discutidas em Xia et al. (2025), como RL scaling (Wang et al., 2025d) ou SFT em dados cognitivos, visam tornar a própria IA mais eficiente e capaz em seu raciocínio, o que, por sua vez, deveria impactar positivamente a interação CL-CompL (por exemplo, um modelo melhor treinado pode exigir menos CompL para atingir a qualidade Q8, ou pode ser mais robusto mesmo em Q4, reduzindo a CL). A coleta de "dados cognitivos" (Xia et al., 2025), incluindo traços de interação humano-IA como os coletados neste estudo, poderia ser usada para treinar tanto melhores modelos de IA quanto melhores sistemas de adaptação. Técnicas como destilação de conhecimento (Ni et al., 2025) ou uso de modelos de raciocínio para treinar modelos menores (Wang et al., 2025a) são formas de gerenciar a CompL do treinamento enquanto se busca alta capacidade, o que também interage com a CL do processo de configuração e avaliação desse treinamento.

● Considerações Adicionais e Desafios: A implementação de sistemas co-adaptativos eficazes baseados no monitoramento CL-CompL enfrenta desafios significativos:

● Precisão da Estimativa de CL: A inferência da CL a partir de sinais fisiológicos é inerentemente probabilística e pode variar entre indivíduos e contextos. Modelos robustos e personalizados podem ser necessários.

● Robustez da Lógica de Adaptação: Definir as regras ou políticas para quando e como o sistema deve se adaptar é complexo e requer validação cuidadosa para evitar adaptações indesejadas ou instabilidade.

● Controle e Confiança do Usuário: As adaptações do sistema devem ser transparentes, explicáveis e, idealmente, permitir que o usuário as anule ou ajuste. Manter a sensação de controle e a confiança do usuário no sistema adaptativo é primordial (Heer, 2019; Tantithamthavorn et al., 2025).

● Complexidade do Sistema Adaptativo: O próprio sistema de monitoramento e adaptação adiciona uma camada de complexidade que precisa ser gerenciada (um desafio de LLMOps em si - Pahune e Akhtar, 2025).

● Integração com Processos de Raciocínio: Como integrar a análise de cadeias de pensamento de modelos de raciocínio (Marjanović et al., 2025; Wang et al., 2025c) ou o uso de dados destilados (Wang et al., 2025a; Ni et al., 2025) neste ciclo CL-CompL? O esforço cognitivo para entender ou gerar esses raciocínios precisa ser considerado. A eficiência do raciocínio em si (Pu et al., 2025) torna-se um fator.

● Privacidade e Ética: A coleta e o uso de dados fisiológicos levantam questões éticas importantes sobre privacidade, consentimento e potencial uso indevido, que devem ser abordadas proativamente (Jobin et al., 2019; Floridi e Taddeo, 2016; Pahune e Akhtar, 2025; Hassan et al., 2025).

Apesar desses desafios, a abordagem co-adaptativa, informada pelo monitoramento contínuo e integrado da interação CL-CompL, representa a direção mais promissora para realizar plenamente o potencial dos LLMs locais de forma sustentável e centrada no humano. Ela permite uma simbiose mais fluida e eficaz, onde as limitações cognitivas humanas e as restrições computacionais da máquina são reconhecidas, respeitadas e gerenciadas de forma inteligente e conjunta. Isso pode levar ao desenvolvimento de sistemas de IA locais que não são apenas mais poderosos e eficientes, mas também mais seguros, utilizáveis, menos frustrantes e, em última análise, mais capacitadores para uma gama mais ampla de usuários. A busca por essa harmonia dinâmica entre mente e máquina no contexto da IA local é um desafio central, mas essencial, para o futuro da interação humano-IA e para a realização prática da engenharia da cognição.

7. CONCLUSÃO

Esta dissertação apresentou uma investigação aprofundada e multimodal sobre a complexa e dinâmica interdependência entre a Carga Cognitiva (CL) do operador humano e a Carga Computacional (CompL) do sistema. O estudo foi conduzido no contexto específico e emergente do ajuste fino local (utilizando QLoRA) e do gerenciamento de fluxos de trabalho multi-agente envolvendo um enxame heterogêneo de 60 Grandes Modelos de Linguagem (LLMs) quantizados no formato GGUF (30 Q4 e 30 Q8). Através de uma metodologia rigorosa de métodos mistos, implementada na plataforma CrossDebate (com frontend React e backend FastAPI) e integrando monitoramento psicofisiológico contínuo (POG, EEG, PPG/HRV, SpO2 via LSL) com monitoramento computacional detalhado (VRAM, utilização de GPU/CPU, energia, térmica em hardware de consumidor), este estudo forneceu evidências empíricas robustas que elucidaram os trade-offs inerentes, as dinâmicas não lineares e os efeitos de moderação que governam essa fulcral interação humano-IA.

As principais conclusões derivadas dos resultados apresentados (Seção 5) e discutidos (Seção 6) podem ser sumarizadas da seguinte forma:

1. Confirmação do Inevitável Trade-off Quantização-CL (H1): Foi demonstrado inequivocamente que a estratégia de quantização GGUF, embora essencial para reduzir a CompL (especialmente VRAM e energia) e viabilizar LLMs locais em hardware de consumidor, impôs um custo cognitivo significativo e mensurável ao operador. Níveis de quantização mais agressivos (Q4) levaram a aumentos substanciais na CL percebida (demanda mental, esforço, frustração) e fisiológica (indicadores de estresse/esforço via EEG, pupilometria, HRV), devido à degradação na qualidade, estabilidade e previsibilidade do modelo. Este achado ressaltou a necessidade fundamental de considerar o impacto humano ao otimizar puramente a eficiência computacional.

2. Identificação da Sobrecarga Cognitiva da Orquestração Multi-Agente (H2): Constatou-se que, com as ferramentas e interfaces atuais (incluindo nossa plataforma CrossDebate), o gerenciamento de fluxos de trabalho multi-agente GGUF em ambientes locais aumentou significativamente não apenas a CompL agregada, mas, de forma mais crítica para a usabilidade, a CL do operador (principalmente a carga extrínseca associada ao gerenciamento). A complexidade inerente à configuração, monitoramento, depuração e integração de múltiplos LLMs agenticamente relacionados (7) frequentemente superou os benefícios potenciais da decomposição da tarefa, destacando a necessidade crítica de melhores ferramentas de orquestração, interfaces cognitivamente ergonômicas e abstrações de design mais eficazes, como as exploradas no desenvolvimento de agentes (OpenAI, 2025).

3. Descoberta da Relação Não Linear CL-CompL e o "Ponto Ideal" (H3): Foi estabelecido empiricamente que a relação funcional entre CL e CompL (pelo menos quando modulada pela qualidade/estabilidade via quantização GGUF) não é linear, mas segue uma curva em forma de J ou U. Existiu uma "zona ótima" de CompL/Qualidade moderada (representada pela condição Q8 neste estudo) que minimizou a CL geral do operador. Operar nos extremos – CompL muito baixa com baixa qualidade/alta CL (Q4), ou CompL excessivamente alta que sobrecarrega o hardware e induz alta CL – mostrou-se subótimo para o desempenho e a experiência do usuário. Este achado desafiou a noção de otimização monotônica e apontou para a importância primordial de buscar um equilíbrio dinâmico. A existência de um "sweet spot" de desempenho versus custo computacional também foi observada em modelos de raciocínio como DeepSeek-R1 (Marjanović et al., 2025), sugerindo que essa não linearidade pode ser uma característica mais geral.

4. Validação do Papel Moderador Essencial da Expertise (H4): Confirmou-se que a expertise prévia do operador atuou como um amortecedor cognitivo fundamental. Especialistas foram significativamente menos afetados negativamente em sua CL por condições desafiadoras (baixa quantização, alta complexidade de fluxo) e foram mais eficazes no gerenciamento da CompL e na obtenção de resultados de tarefa superiores em comparação com iniciantes. Isso reforçou a importância crítica de considerar as diferenças individuais no design de sistemas de IA locais e a necessidade de interfaces adaptativas e programas de treinamento focados na construção de modelos mentais e estratégias metacognitivas.

A principal contribuição teórica desta pesquisa reside na caracterização sistemática e empírica da interdependência CL-CompL neste domínio específico e contemporâneo da IA local. Ao estender a aplicabilidade da Teoria da Carga Cognitiva a este contexto e integrá-la com princípios de HCI, gerenciamento de recursos computacionais e computação neurofisiológica, este estudo oferece um quadro mais completo para entender a interação humano-máquina sob restrições cognitivas e computacionais. A identificação da relação não linear (H3) e do papel moderador da expertise (H4) fornece uma compreensão mais matizada e ecologicamente válida dos fatores que influenciam a eficácia, a eficiência e a usabilidade de sistemas de IA locais complexos, incluindo aqueles que envolvem múltiplos agentes (OpenAI, 2025) ou processos de raciocínio (Marjanović et al., 2025).

Do ponto de vista prático e de engenharia, as contribuições incluem: (a) a demonstração empírica da viabilidade, mas também dos desafios significativos (em termos de CL e CompL), do ajuste fino local de GGUF (QLoRA) e da orquestração multi-agente em hardware de consumidor comum; (b) o desenvolvimento e a avaliação inicial da plataforma CrossDebate como um sistema protótipo capaz de monitorar a interação CL-CompL em tempo real usando dados multimodais; e (c) a derivação de implicações de design cruciais e baseadas em evidências para futuras ferramentas e interfaces de IA locais. Especificamente, argumentou-se que tais ferramentas devem evoluir de meros executores de tarefas para se tornarem sistemas co-adaptativos. Esses sistemas devem monitorar ativamente o estado do conjunto humano-máquina, visualizar os trade-offs CL-CompL, facilitar a operação dentro da "zona ótima" de equilíbrio cognitivo-computacional, e adaptar-se dinamicamente ao nível de expertise do usuário. Isso pode incluir a incorporação de técnicas para usar saídas de modelos mais capazes para treinar modelos menores de forma mais eficiente (Wang et al., 2025a), gerenciando a CL associada a esse processo de destilação.

Embora este estudo tenha empregado uma metodologia rigorosa, reconhecemos suas limitações. Estas incluem a natureza controlada do ambiente de laboratório, a especificidade do hardware, software e modelos LLM utilizados (limitados a variantes Q4 e Q8 de arquiteturas específicas), o tamanho relativamente modesto da amostra de participantes (N≈40), e as complexidades inerentes à interpretação de sinais psicofisiológicos como indicadores puros de CL. A generalização dos achados quantitativos exatos deve, portanto, ser feita com cautela. No entanto, acreditamos que os padrões qualitativos e os princípios gerais da interação CL-CompL identificados são robustos e relevantes para uma ampla gama de cenários de IA local.

Em suma, esta dissertação avançou nossa compreensão da complexa e delicada dança entre a mente humana e a máquina computacional na era da IA democratizada e local. Ao quantificar os custos cognitivos da eficiência computacional e a sobrecarga da orquestração complexa, e ao destacar a importância fundamental do equilíbrio dinâmico e da adaptação à expertise humana, este trabalho forneceu uma base empírica e conceitual sólida para o desenvolvimento futuro de sistemas de IA locais. O objetivo final não é apenas criar sistemas que sejam poderosos e acessíveis computacionalmente, mas que sejam também cognitivamente sustentáveis, utilizáveis, menos frustrantes e verdadeiramente centrados nas capacidades e limitações humanas. A busca por uma simbiose harmoniosa e produtiva entre Carga Cognitiva e Carga Computacional, auxiliada por novas técnicas de treinamento (Wang et al., 2025a) e design de interação, permanece um desafio central, mas essencial, para desbloquear todo o potencial da inteligência artificial de forma responsável e benéfica para todos.

REFERÊNCIAS

ADLAKHA, V. et al. Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering. Transactions of the Association for Computational Linguistics, v. 12, p. 681–699, 2024. DOI: 10.1162/tacl_a_00667. Disponível em: https://doi.org/10.1162/tacl_a_00667. Acesso em: 20 abr. 2025.

AFRIN, S. et al. Resource-Efficient & Effective Code Summarization. 2025. arXiv:2502.03617. Disponível em: https://arxiv.org/abs/2502.03617. Acesso em: 20 abr. 2025.

AHMAD, M. I. et al. A framework to estimate cognitive load using physiological data. Personal and Ubiquitous Computing, v. 27, p. 2027–2041, 2023. DOI: 10.1007/s00779-020-01455-7. Disponível em: https://doi.org/10.1007/s00779-020-01455-7. Acesso em: 20 abr. 2025.

AHMADI, A.; SHARIF, S.; BANAD, Y. M. MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers. 2024. arXiv:2504.08999. Disponível em: https://arxiv.org/abs/2504.08999. Acesso em: 20 abr. 2025.

AIKEN, L. S.; WEST, S. G.; RENO, R. R. Multiple regression: testing and interpreting interactions. Newbury Park: Sage, 1991.

AMERSHI, S. et al. Guidelines for Human-AI Interaction. In: CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS (CHI ’19), 2019, Glasgow. Proceedings [...]. New York: ACM, 2019. p. 1–13. DOI: 10.1145/3290605.3300233. Disponível em: https://doi.org/10.1145/3290605.3300233. Acesso em: 20 abr. 2025.

AMERSHI, S. et al. Power to the People: The Role of Humans in Interactive Machine Learning. AI Magazine, v. 35, n. 4, p. 105–120, 2014. DOI: 10.1609/aimag.v35i4.2513. Disponível em: https://doi.org/10.1609/aimag.v35i4.2513. Acesso em: 20 abr. 2025.

ANDERSON, J. R. Acquisition of cognitive skill. Psychological Review, v. 89, n. 4, p. 369–406, 1982. DOI: 10.1037/0033-295X.89.4.369. Disponível em: https://doi.org/10.1037/0033-295X.89.4.369. Acesso em: 20 abr. 2025.

ANTHROPIC. Claude 3.7 sonnet system card. 2025a. Disponível em: https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf. Acesso em: 20 abr. 2025.

ANTHROPIC. Tracing the thoughts of a large language model. 2025b. Disponível em: https://www.anthropic.com/research/tracing-thoughts-language-model. Acesso em: 20 abr. 2025.

AYUPOV, S.; CHIRKOVA, N. Parameter-efficient finetuning of transformers for source code. 2022. arXiv:2212.05901. Disponível em: https://arxiv.org/abs/2212.05901. Acesso em: 20 abr. 2025.

BAAYEN, R. H.; DAVIDSON, D. J.; BATES, D. M. Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, v. 59, n. 4, p. 390-412, 2008. DOI: 10.1016/j.jml.2007.12.005. Disponível em: https://doi.org/10.1016/j.jml.2007.12.005. Acesso em: 20 abr. 2025.

BADDELEY, A. Working memory: theories, models, and controversies. Annual Review of Psychology, v. 63, p. 1-29, 2012. DOI: 10.1146/annurev-psych-120710-100422. Disponível em: https://doi.org/10.1146/annurev-psych-120710-100422. Acesso em: 20 abr. 2025.

BAI, G. et al. Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models. 2024. arXiv:2401.00625. Disponível em: https://arxiv.org/abs/2401.00625. Acesso em: 20 abr. 2025.

BAINBRIDGE, L. Ironies of automation. Automatica, v. 19, n. 6, p. 775-779, 1983. DOI: 10.1016/0005-1098(83)90046-8. Disponível em: https://doi.org/10.1016/0005-1098(83)90046-8. Acesso em: 20 abr. 2025.

BALCONI, M.; ANGIOLETTI, L.; ALLEGRETA, R. A. Which type of feedback—Positive or negative- reinforces decision recall? An EEG study. Brain Sciences, v. 15, n. 2, p. 203, 2024. DOI: 10.3390/brainsci15020203. Disponível em: https://doi.org/10.3390/brainsci15020203. Acesso em: 20 abr. 2025.

BALDWIN, C. Y.; CLARK, K. B. Design rules, Vol. 1: The power of modularity. Cambridge, MA: MIT press, 2000.

BARNETT, V.; LEWIS, T. Outliers in statistical data. 3. ed. Chichester: Wiley, 1994.

BEATTY, J.; LUCERO-WAGONER, B. The pupillary system. In: CACIOPPO, J. T.; TASSINARY, L. G.; BERNTSON, G. G. (Eds.). Handbook of psychophysiology. 2. ed. Cambridge: Cambridge University Press, 2000. p. 142-162.

BELDA-LOIS, J.-M. et al. Determining Cognitive Workload Using Physiological Measurements: Pupillometry and Heart-Rate Variability. Sensors, v. 24, n. 6, p. 2010, 2024. DOI: 10.3390/s24062010. Disponível em: https://doi.org/10.3390/s24062010. Acesso em: 20 abr. 2025.

BENDER, E. M. et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: ACM CONFERENCE ON FAIRNESS, ACCOUNTABILITY, AND TRANSPARENCY (FAccT '21), 2021, Virtual Event. Proceedings [...]. New York: ACM, 2021. p. 610–623. DOI: 10.1145/3442188.3445922. Disponível em: https://doi.org/10.1145/3442188.3445922. Acesso em: 20 abr. 2025.

BERGSTRÖM, J. et al. How to evaluate object selection and manipulation in vr? guidelines from 20 years of studies. In: CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS (CHI ’21), 2021, Yokohama. Proceedings [...]. New York: ACM, 2021. p. 1–20. DOI: 10.1145/3411764.3445193. Disponível em: https://doi.org/10.1145/3411764.3445193. Acesso em: 20 abr. 2025.

BIRKMOSE, R. et al. On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation. 2025. arXiv:2502.12923. Disponível em: https://arxiv.org/abs/2502.12923. Acesso em: 20 abr. 2025.

BLACKMORE, K. L.; SMITH, S. P.; KRYNSKI, B. Integrating Biofeedback and Artificial Intelligence into eXtended Reality Training Scenarios: A Systematic Literature Review. Simulation & Gaming, v. 55, n. 3, p. 289-311, 2024. DOI: 10.1177/10468781241236688. Disponível em: https://doi.org/10.1177/10468781241236688. Acesso em: 20 abr. 2025.

BOLKER, B. M. et al. Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology & Evolution, v. 24, n. 3, p. 127-135, 2009. DOI: 10.1016/j.tree.2008.10.008. Disponível em: https://doi.org/10.1016/j.tree.2008.10.008. Acesso em: 20 abr. 2025.

BORST, J. P.; TAATGEN, N. A.; VAN RIJN, H. The problem state: A cognitive bottleneck in multitasking. Journal of Experimental Psychology: Learning, Memory, and Cognition, v. 41, n. 5, p. 1301–1318, 2015. DOI: 10.1037/xlm0000120. Disponível em: https://doi.org/10.1037/xlm0000120. Acesso em: 20 abr. 2025.

BRAUN, V.; CLARKE, V. Using thematic analysis in psychology. Qualitative Research in Psychology, v. 3, n. 2, p. 77-101, 2006. DOI: 10.1191/1478088706qp063oa. Disponível em: https://doi.org/10.1191/1478088706qp063oa. Acesso em: 20 abr. 2025.

BRETZ, F.; HOTHORN, T.; WESTFALL, P. Multiple comparisons using R. Boca Raton: CRC press, 2011.

BROOKINGS, J. B.; WILSON, G. F.; SWAIN, C. R. Psychophysiological responses to changes in workload during simulated air traffic control. Biological Psychology, v. 42, n. 3, p. 361-377, 1996. DOI: 10.1016/0301-0511(95)05167-8. Disponível em: https://doi.org/10.1016/0301-0511(95)05167-8. Acesso em: 20 abr. 2025.

BROWN, B. T. et al. Scalable Hypergraph Structure Learning with Diverse Smoothness Priors. 2025. arXiv:2504.03583. Disponível em: https://arxiv.org/abs/2504.03583. Acesso em: 20 abr. 2025.

BROWN, T. et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, v. 33, p. 1877-1901, 2020. Disponível em: https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html. Acesso em: 20 abr. 2025.

BUBECK, S. et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. 2023. arXiv:2303.12712. Disponível em: https://arxiv.org/abs/2303.12712. Acesso em: 20 abr. 2025.

BUÇINCA, Z.; MALAYA, M.; GLICKSMAN, J. To Trust or Not to Trust: How Users Engage with Interpretable AI Systems. In: CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS (CHI ’21), 2021, Yokohama. Proceedings [...]. New York: ACM, 2021. Art. 409, p. 1–13. DOI: 10.1145/3411764.3445586. Disponível em: https://doi.org/10.1145/3411764.3445586. Acesso em: 20 abr. 2025.

CAI, C. et al. The Role of Deductive and Inductive Reasoning in Large Language Models. 2024. arXiv:2410.02892. Disponível em: https://arxiv.org/abs/2410.02892. Acesso em: 20 abr. 2025.

CAIN, B. A review of the mental workload literature. Edinburgh, South Australia: Defence Science and Technology Organisation, 2007. (DSTO-TR-1945).

CALLAGHAN, S. et al. Machine learning-based workflow management systems: A survey. ACM Computing Surveys (CSUR), v. 54, n. 2, p. 1-37, 2021. DOI: 10.1145/3447790. Disponível em: https://doi.org/10.1145/3447790. Acesso em: 20 abr. 2025.

CHANG, Y. et al. A Survey on Evaluation of Large Language Models. 2023. arXiv:2307.03109. Disponível em: https://arxiv.org/abs/2307.03109. Acesso em: 20 abr. 2025.

CHASE, W. G.; SIMON, H. A. Perception in chess. Cognitive Psychology, v. 4, n. 1, p. 55-81, 1973. DOI: 10.1016/0010-0285(73)90004-2. Disponível em: https://doi.org/10.1016/0010-0285(73)90004-2. Acesso em: 20 abr. 2025.

CHIOSSI, F.; MAYER, S. How Can Mixed Reality Benefit From Physiologically-Adaptive Systems? Challenges and Opportunities for Human Factors Applications. 2023. arXiv:2303.17978. Disponível em: https://arxiv.org/abs/2303.17978. Acesso em: 20 abr. 2025.

CHOWDHERY, A. et al. PaLM: Scaling Language Modeling with Pathways. Journal of Machine Learning Research, v. 24, n. 240, p. 1-113, 2023. Disponível em: https://jmlr.org/papers/v24/22-1144.html. Acesso em: 20 abr. 2025.

COHEN, J. et al. Applied multiple regression/correlation analysis for the behavioral sciences. 3. ed. Mahwah: Lawrence Erlbaum Associates, 2003.

CRESWELL, J. W.; CLARK, V. L. P. Designing and conducting mixed methods research. 3. ed. Thousand Oaks: Sage publications, 2017.

CREWAI. CrewAI Framework. GitHub Repository, 2024. Disponível em: https://github.com/joaomdmoura/crewAI. Acesso em: 20 abr. 2025.

DAO, T. et al. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. Advances in Neural Information Processing Systems, v. 35, p. 16884-16899, 2022. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2022/hash/67d57c32e20fd0a7a3ea618f86ff5361-Abstract-Conference.html. Acesso em: 20 abr. 2025.

DEEPSEEK-AI et al. Deepseek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. 2025. arXiv:2501.12948. Disponível em: https://arxiv.org/abs/2501.12948. Acesso em: 20 abr. 2025.

DESAI, R. et al. Sans Tracas: A Cross-platform Tool for Online EEG Experiments. In: ACM SIGCHI SYMPOSIUM ON ENGINEERING INTERACTIVE COMPUTING SYSTEMS (EICS ’22 Companion), 2022, Sophia Antipolis. Companion [...]. New York: ACM, 2022. p. 1–7. DOI: 10.1145/3531706.3536461. Disponível em: https://doi.org/10.1145/3531706.3536461. Acesso em: 20 abr. 2025.

DETTMERS, T. et al. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. Advances in Neural Information Processing Systems, v. 35, p. 33019-33034, 2022. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2022/hash/8c839154519df657899798c50a2d645f-Abstract-Conference.html. Acesso em: 20 abr. 2025.

DETTMERS, T. et al. Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, v. 36, 2023. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2023/hash/6a4d5956f508541689d0e5c5a878e074-Abstract-Conference.html. Acesso em: 20 abr. 2025.

DEVLIN, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 2019, Minneapolis. Proceedings [...], Volume 1 (Long and Short Papers). Stroudsburg: Association for Computational Linguistics, 2019. p. 4171–4186. DOI: 10.18653/v1/N19-1423. Disponível em: https://doi.org/10.18653/v1/N19-1423. Acesso em: 20 abr. 2025.

DODGE, J. et al. Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping. 2020. arXiv:2002.06305. Disponível em: https://arxiv.org/abs/2002.06305. Acesso em: 20 abr. 2025.

DODGE, J. et al. Measuring the Carbon Intensity of AI in Cloud Instances. In: ACM CONFERENCE ON FAIRNESS, ACCOUNTABILITY, AND TRANSPARENCY (FAccT '22), 2022, Seoul. Proceedings [...]. New York: ACM, 2022. p. 1877–1893. DOI: 10.1145/3531146.3534608. Disponível em: https://doi.org/10.1145/3531146.3534608. Acesso em: 20 abr. 2025.

DOHERTY, W. J.; KELISKY, R. P. Managing VM/CMS systems for user effectiveness. IBM Systems Journal, v. 18, n. 1, p. 143-163, 1979. DOI: 10.1147/sj.181.0143. Disponível em: https://doi.org/10.1147/sj.181.0143. Acesso em: 20 abr. 2025.

DUDLEY, J. J.; KRISTENSSON, P. O. A Review of User Interface Design for Interactive Machine Learning. ACM Transactions on Interactive Intelligent Systems, v. 8, n. 2, art. 12, p. 1–39, 2018. DOI: 10.1145/3185517. Disponível em: https://doi.org/10.1145/3185517. Acesso em: 20 abr. 2025.

DURAN, R.; ZAVGORODNIAIA, A.; SORVA, J. Cognitive Load Theory in Computing Education Research: A Review. ACM Transactions on Computing Education, v. 22, n. 4, art. 40, p. 1–27, 2022. DOI: 10.1145/3532776. Disponível em: https://doi.org/10.1145/3532776. Acesso em: 20 abr. 2025.

EDGE, D. et al. From local to global: A graph rag approach to query-focused summarization. 2024. arXiv:2404.16130. Disponível em: https://arxiv.org/abs/2404.16130. Acesso em: 20 abr. 2025.

ELNAGGAR, A. et al. Can Llama 3 Reason? Evaluating the Logical Reasoning Capabilities of Large Language Models. 2025. arXiv:2404.18810. Disponível em: https://arxiv.org/abs/2404.18810. Acesso em: 20 abr. 2025.

ERICSSON, K. A.; SIMON, H. A. Verbal reports as data. Psychological Review, v. 87, n. 3, p. 215–251, 1980. DOI: 10.1037/0033-295X.87.3.215. Disponível em: https://doi.org/10.1037/0033-295X.87.3.215. Acesso em: 20 abr. 2025.

FAUL, F. et al. G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, v. 39, n. 2, p. 175-191, 2007. DOI: 10.3758/BF03193146. Disponível em: https://doi.org/10.3758/BF03193146. Acesso em: 20 abr. 2025.

FEDUS, W.; ZOPH, B.; SHAZER, N. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. 2022. arXiv:2101.03961. Disponível em: https://arxiv.org/abs/2101.03961. Acesso em: 20 abr. 2025.

FENG, Y. et al. Beyond Graphs: Can Large Language Models Comprehend Hypergraphs? 2024. arXiv:2410.10083. Disponível em: https://arxiv.org/abs/2410.10083. Acesso em: 20 abr. 2025.

FENG, Y. et al. Hypergraph Foundation Model. 2023. arXiv:2503.01203. Disponível em: https://arxiv.org/abs/2503.01203. Acesso em: 20 abr. 2025.

FETTERS, M. D.; CURRY, L. A.; CRESWELL, J. W. Achieving integration in mixed methods designs—principles and practices. Health Services Research, v. 48, n. 6pt2, p. 2134-2156, 2013. DOI: 10.1111/1475-6773.12117. Disponível em: https://doi.org/10.1111/1475-6773.12117. Acesso em: 20 abr. 2025.

FLAVELL, J. H. Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, v. 34, n. 10, p. 906–911, 1979. DOI: 10.1037/0003-066X.34.10.906. Disponível em: https://doi.org/10.1037/0003-066X.34.10.906. Acesso em: 20 abr. 2025.

FLORIDI, L.; TADDEO, M. What is data ethics? Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, v. 374, n. 2083, p. 20160360, 2016. DOI: 10.1098/rsta.2016.0360. Disponível em: https://doi.org/10.1098/rsta.2016.0360. Acesso em: 20 abr. 2025.

FRANTAR, E. et al. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. 2022. arXiv:2210.17323. Disponível em: https://arxiv.org/abs/2210.17323. Acesso em: 20 abr. 2025.

GAO, L. et al. Retrieval-Augmented Thought Process for Large Language Models. 2023. arXiv:2305.02591. Disponível em: https://arxiv.org/abs/2305.02591. Acesso em: 20 abr. 2025.

GAO, L. et al. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. 2021. arXiv:2101.00027. Disponível em: https://arxiv.org/abs/2101.00027. Acesso em: 20 abr. 2025.

GAO, Y. et al. U-NIAH: Unified RAG and LLM evaluation for long context needle-in-a-haystack. 2025. arXiv:2503.00353. Disponível em: https://arxiv.org/abs/2503.00353. Acesso em: 20 abr. 2025.

GARCIA-MARTIN, E. et al. Estimation of energy consumption in machine learning. Journal of Parallel and Distributed Computing, v. 134, p. 75-88, 2019. DOI: 10.1016/j.jpdc.2019.07.007. Disponível em: https://doi.org/10.1016/j.jpdc.2019.07.007. Acesso em: 20 abr. 2025.

GEBRU, T. et al. Datasheets for Datasets. Communications of the ACM, v. 64, n. 12, p. 86-92, 2021. DOI: 10.1145/3458723. Disponível em: https://doi.org/10.1145/3458723. Acesso em: 20 abr. 2025.

GERJETS, P.; SCHEITER, K.; CATRAMBONE, R. Designing instructional examples to reduce intrinsic cognitive load: Molar versus modular presentation of solution procedures. Instructional Science, v. 32, n. 1/2, p. 33-58, 2004. DOI: 10.1023/B:TRUC.0000021809.10236.71. Disponível em: https://doi.org/10.1023/B:TRUC.0000021809.10236.71. Acesso em: 20 abr. 2025.

GEVINS, A.; SMITH, M. E. Neurophysiological measures of working memory and individual differences in cognitive ability and cognitive style. Cerebral Cortex, v. 10, n. 9, p. 829-839, 2000. DOI: 10.1093/cercor/10.9.829. Disponível em: https://doi.org/10.1093/cercor/10.9.829. Acesso em: 20 abr. 2025.

GHOLAMI, A. et al. A Survey of Quantization Methods for Efficient Neural Network Inference. 2021. arXiv:2103.13630. Disponível em: https://arxiv.org/abs/2103.13630. Acesso em: 20 abr. 2025.

GHOSH, D. P. Agentic ecosystem in engineering design: a framework for interoperable legacy tools and emergent collaboration via MCP/A2A protocols. Kolkata: Engineering Design & Research Center, Larsen & Toubro Construction, 2025. Disponível em: https://www.researchgate.net/profile/Debi-Prasad-Ghosh/publication/390667861_Agentic_Ecosystem_in_Engineering_Design_A_Framework_for_Interoperable_Legacy_Tools_and_Emergent_Collaboration_via_MCPA2A_Protocols/links/67f81906d1054b0207d1c78d/Agentic-Ecosystem-in-Engineering-Design-A-Framework-for-Interoperable-Legacy-Tools-and-Emergent-Collaboration-via-MCP-A2A-Protocols.pdf. Acesso em: 20 abr. 2025.

GITINGEST. Gitingest Website. 2021. Disponível em: https://gitingest.com/. Acesso em: 20 abr. 2025.

GKINTONI, E. et al. Challenging Cognitive Load Theory: The Role of Educational Neuroscience and Artificial Intelligence in Redefining Learning Efficacy. Brain Sciences, v. 15, n. 2, p. 203, 2025. DOI: 10.3390/brainsci15020203. Disponível em: https://doi.org/10.3390/brainsci15020203. Acesso em: 20 abr. 2025.

GOERTZEL, B. Artificial general intelligence: concept, state of the art, and future prospects. Journal of Artificial General Intelligence, v. 5, n. 1, p. 1–48, 2014. DOI: 10.2478/jagi-2014-0001. Disponível em: https://doi.org/10.2478/jagi-2014-0001. Acesso em: 20 abr. 2025.

GRAMFORT, A. et al. MEG and EEG data analysis with MNE-Python. Frontiers in Neuroscience, v. 7, p. 267, 2013. DOI: 10.3389/fnins.2013.00267. Disponível em: https://doi.org/10.3389/fnins.2013.00267. Acesso em: 20 abr. 2025.

GRASSMANN, M. et al. Peripheral Oxygen Saturation (SpO2) as a Potential Measure for Cognitive Load: A Validation Study during Simulated Flight. Frontiers in Physiology, v. 7, p. 590, 2016. DOI: 10.3389/fphys.2016.00590. Disponível em: https://doi.org/10.3389/fphys.2016.00590. Acesso em: 20 abr. 2025.

GREENE, J. C.; CARACELLI, V. J.; GRAHAM, W. F. Toward a conceptual framework for mixed-method evaluation designs. Educational Evaluation and Policy Analysis, v. 11, n. 3, p. 255-274, 1989. DOI: 10.3102/01623737011003255. Disponível em: https://doi.org/10.3102/01623737011003255. Acesso em: 20 abr. 2025.

GREGG, B. Systems Performance. 2. ed. Upper Saddle River: Addison-Wesley Professional, 2020.

GUPTA, S. et al. Infrared: Infrared spectroscopy absorption prediction based on molecular geometry. 2020. arXiv:2006.15084. Disponível em: https://arxiv.org/abs/2006.15084. Acesso em: 20 abr. 2025.

HAIR JR., J. F. et al. Multivariate data analysis. 7. ed. Upper Saddle River: Prentice Hall, 2010.

HAN, S. et al. Graph Neural Networks for Recommendation: A Review. 2024. arXiv:2401.03697. Disponível em: https://arxiv.org/abs/2401.03697. Acesso em: 20 abr. 2025.

HANCOCK, P. A.; WARM, J. S. A dynamic model of stress and sustained attention. Human Factors, v. 31, n. 5, p. 519-537, 1989. DOI: 10.1177/001872088903100503. Disponível em: https://doi.org/10.1177/001872088903100503. Acesso em: 20 abr. 2025.

HART, S. G.; STAVELAND, L. E. Development of NASA-TLX (Task Load Index): Results of empirical and theoretical research. In: HANCOCK, P. A.; MESHKATI, N. (Eds.). Human mental workload. Amsterdam: North Holland Press, 1988. p. 139–183.

HARTSON, R.; PYLA, P. S. The UX Book: Process and Guidelines for Ensuring a Quality User Experience. Amsterdam: Morgan Kaufmann, 2012.

HASSAN, Ahmed E. et al. Rethinking Software Engineering in the Era of Foundation Models: A Curated Catalogue of Challenges in the Development of Trustworthy FMware. In: INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING COMPANION (ICSE '24 Companion), 2024, Lisbon. Proceedings [...]. New York: ACM, 2024. p. 1010-1019. DOI: 10.1145/3663529.3663849.

HASSAN, R. et al. Machine Learning Based Human Attention Recognition From Brain-EEG Signals. In: IEEE EURASIA CONFERENCE ON IOT, COMMUNICATION AND ENGINEERING (ECICE), 2020, Yunlin. Proceedings [...]. Piscataway: IEEE, 2020. p. 406-409. DOI: 10.1109/ECICE50847.2020.9301988. Disponível em: https://doi.org/10.1109/ECICE50847.2020.9301988. Acesso em: 20 abr. 2025.

HEER, J. Agency plus automation: Designing artificial intelligence into interactive systems. Proceedings of the National Academy of Sciences, v. 116, n. 6, p. 1844-1850, 2019. DOI: 10.1073/pnas.1807180115. Disponível em: https://doi.org/10.1073/pnas.1807180115. Acesso em: 20 abr. 2025.

HEER, J.; SHNEIDERMAN, B. Interactive dynamics for visual analysis. Communications of the ACM, v. 55, n. 4, p. 45-54, 2012. DOI: 10.1145/2133806.2133821. Disponível em: https://doi.org/10.1145/2133806.2133821. Acesso em: 20 abr. 2025.

HJORTSKOV, N. et al. The effect of mental stress on heart rate variability and blood pressure during computer work. European Journal of Applied Physiology, v. 92, n. 1-2, p. 84-89, 2004. DOI: 10.1007/s00421-004-1055-z. Disponível em: https://doi.org/10.1007/s00421-004-1055-z. Acesso em: 20 abr. 2025.

HOC, J.-M. From human-machine interaction to human-machine cooperation. Ergonomics, v. 43, n. 7, p. 833-843, 2000. DOI: 10.1080/001401300409060. Disponível em: https://doi.org/10.1080/001401300409060. Acesso em: 20 abr. 2025.

HOFFMANN, J. et al. Training Compute-Optimal Large Language Models. 2022. arXiv:2203.15556. Disponível em: https://arxiv.org/abs/2203.15556. Acesso em: 20 abr. 2025.

HOLLAN, J. D.; HUTCHINS, E.; KIRSH, D. Distributed cognition: toward a new foundation for human-computer interaction research. ACM Transactions on Computer-Human Interaction (TOCHI), v. 7, n. 2, p. 174-196, 2000. DOI: 10.1145/353485.353487. Disponível em: https://doi.org/10.1145/353485.353487. Acesso em: 20 abr. 2025.

HOLMQVIST, K. et al. Eye tracking: A comprehensive guide to methods and measures. Oxford: Oxford University Press, 2011.

HONG, S. et al. Metagpt: Meta programming for multi-agent collaborative framework. 2023. arXiv:2308.00352. Disponível em: https://arxiv.org/abs/2308.00352. Acesso em: 20 abr. 2025.

HOULSBY, N. et al. Parameter-Efficient Transfer Learning for NLP. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML), 36., 2019, Long Beach. Proceedings [...]. Cambridge, MA: PMLR, 2019. p. 2790–2799. (Proceedings of Machine Learning Research, v. 97). Disponível em: https://proceedings.mlr.press/v97/houlsby19a.html. Acesso em: 20 abr. 2025.

HOWARD, J.; RUDER, S. Universal Language Model Fine-tuning for Text Classification. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 56., 2018, Melbourne. Proceedings [...], Volume 1 (Long Papers). Stroudsburg: Association for Computational Linguistics, 2018. p. 328–339. DOI: 10.18653/v1/P18-1031. Disponível em: https://doi.org/10.18653/v1/P18-1031. Acesso em: 20 abr. 2025.

HU, E. J. et al. LoRA: Low-Rank Adaptation of Large Language Models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2022. Disponível em: https://openreview.net/forum?id=nZeVKeeFYf9. Acesso em: 20 abr. 2025.

HUSOM, E. J. et al. Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency. 2025. arXiv:2504.03360. Disponível em: https://arxiv.org/abs/2504.03360. Acesso em: 20 abr. 2025.

IARLORI, S. et al. An Overview of Approaches and Methods for the Cognitive Workload Estimation in Human–Machine Interaction Scenarios through Wearables Sensors. BioMedInformatics, v. 4, n. 2, p. 1155-1173, 2024. DOI: 10.3390/biomedinformatics4020059. Disponível em: https://doi.org/10.3390/biomedinformatics4020059. Acesso em: 20 abr. 2025.

JACOB, B. et al. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference. In: IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2018, Salt Lake City. Proceedings [...]. Piscataway: IEEE, 2018. p. 2704-2713. DOI: 10.1109/CVPR.2018.00286. Disponível em: https://doi.org/10.1109/CVPR.2018.00286. Acesso em: 20 abr. 2025.

JIA, F. et al. Scaling Up On-Device LLMs via Active-Weight Swapping Between DRAM and Flash. 2025. arXiv:2504.08378. Disponível em: https://arxiv.org/abs/2504.08378. Acesso em: 20 abr. 2025.

JIANG, A. Q. et al. Mistral 7B. 2023. arXiv:2310.06825. Disponível em: https://arxiv.org/abs/2310.06825. Acesso em: 20 abr. 2025.

JINDAL, A. K.; RAJPOOT, P. K.; PARIKH, A. Birbal: An efficient 7b instruct-model fine-tuned with curated datasets. 2024. arXiv:2401.02869. Disponível em: https://arxiv.org/abs/2401.02869. Acesso em: 20 abr. 2025.

JOBIN, A.; IENCA, M.; VAYENA, E. The global landscape of AI ethics guidelines. Nature Machine Intelligence, v. 1, n. 9, p. 389-399, 2019. DOI: 10.1038/s42256-019-0088-2. Disponível em: https://doi.org/10.1038/s42256-019-0088-2. Acesso em: 20 abr. 2025.

JOUPPI, N. P. et al. In-datacenter performance analysis of a tensor processing unit. In: ANNUAL INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE (ISCA), 44., 2017, Toronto. Proceedings [...]. New York: ACM, 2017. p. 1–12. DOI: 10.1145/3079856.3079872. Disponível em: https://doi.org/10.1145/3079856.3079872. Acesso em: 20 abr. 2025.

KAHNEMAN, D.; BEATTY, J. Pupil diameter and load on memory. Science, v. 154, n. 3756, p. 1583-1585, 1966. DOI: 10.1126/science.154.3756.1583. Disponível em: https://doi.org/10.1126/science.154.3756.1583. Acesso em: 20 abr. 2025.

KALYUGA, S. et al. The expertise reversal effect. Educational Psychologist, v. 38, n. 1, p. 23-31, 2003. DOI: 10.1207/S15326985EP3801_4. Disponível em: https://doi.org/10.1207/S15326985EP3801_4. Acesso em: 20 abr. 2025.

KAPLAN, J. et al. Scaling laws for neural language models. 2020. arXiv:2001.08361. Disponível em: https://arxiv.org/abs/2001.08361. Acesso em: 20 abr. 2025.

KAZEMI, M. et al. LAMBADA: Backward chaining for automated reasoning in natural language. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 61., 2023, Toronto. Proceedings [...], Volume 1 (Long Papers). Stroudsburg: Association for Computational Linguistics, 2023. p. 6547–6568. DOI: 10.18653/v1/2023.acl-long.361. Disponível em: https://aclanthology.org/2023.acl-long.361/. Acesso em: 20 abr. 2025.

KAZEMITABAAR, M. et al. CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs. 2024. arXiv:2402.01380. Disponível em: https://arxiv.org/abs/2402.01380. Acesso em: 20 abr. 2025.

KAZEMNEJAD, A. et al. VinePPO: Unlocking RL potential for LLM reasoning through refined credit assignment. 2024. arXiv:2410.01679. Disponível em: https://arxiv.org/abs/2410.01679. Acesso em: 20 abr. 2025.

KEOGH, E.; KASETTY, S. On the need for time series data mining benchmarks: a survey and empirical demonstration. Data Mining and Knowledge Discovery, v. 7, n. 4, p. 349-371, 2003. DOI: 10.1023/A:1024988512476. Disponível em: https://doi.org/10.1023/A:1024988512476. Acesso em: 20 abr. 2025.

KHANDELWAL, A. et al. Do moral judgment and reasoning capability of llms change with language? a study using the multilingual defining issues test. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 18., 2024, St. Julian's. Proceedings [...], Volume 1 (Long Papers). Stroudsburg: Association for Computational Linguistics, 2024. p. 2882–2894. DOI: 10.18653/v1/2024.eacl-long.175. Disponível em: https://aclanthology.org/2024.eacl-long.175/. Acesso em: 20 abr. 2025.

KIM, M.; ORSO, A.; SINHA, S. LlamaRestTest: Effective REST API Testing with Small Language Models. 2025. arXiv:2501.08598. Disponível em: https://arxiv.org/abs/2501.08598. Acesso em: 20 abr. 2025.

KIM, S. et al. SqueezeLLM: Dense-and-Sparse Quantization. 2023. arXiv:2306.07629. Disponível em: https://arxiv.org/abs/2306.07629. Acesso em: 20 abr. 2025.

KIM, Y. et al. One ruler to measure them all: Benchmarking multilingual long-context language models. 2025. arXiv:2503.01996. Disponível em: https://arxiv.org/abs/2503.01996. Acesso em: 20 abr. 2025.

KIRSCHNER, P. A.; SWELLER, J.; CLARK, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational Psychologist, v. 41, n. 2, p. 75-86, 2006. DOI: 10.1207/s15326985ep4102_1. Disponível em: https://doi.org/10.1207/s15326985ep4102_1. Acesso em: 20 abr. 2025.

KLIMESCH, W. EEG alpha and theta oscillations reflect cognitive and memory performance: a review and analysis. Brain Research Reviews, v. 29, n. 2-3, p. 169-195, 1999. DOI: 10.1016/s0165-0173(98)00056-3. Disponível em: https://doi.org/10.1016/s0165-0173(98)00056-3. Acesso em: 20 abr. 2025.

KNOBLICH, G. et al. Constraint relaxation and chunk decomposition in insight problem solving. Journal of Experimental Psychology: Learning, Memory, and Cognition, v. 25, n. 6, p. 1534–1555, 1999. DOI: 10.1037/0278-7393.25.6.1534. Disponível em: https://doi.org/10.1037/0278-7393.25.6.1534. Acesso em: 20 abr. 2025.

KNOOP, M. R1-zero and r1 results and analysis. ARC Prize Blog, 2025. Disponível em: https://arcprize.org/blog/r1-zero-r1-results-analysis. Acesso em: 20 abr. 2025.

KOHLBERG, L.; HERSH, R. H. Moral development: A review of the theory. Theory into practice, v. 16, n. 2, p. 53–59, 1977. DOI: 10.1080/00405847709542675. Disponível em: https://doi.org/10.1080/00405847709542675. Acesso em: 20 abr. 2025.

KOJIMA, T. et al. Large language models are zero-shot reasoners. Advances in Neural Information Processing Systems, v. 35, p. 22199–22213, 2022. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2022/hash/8bb0d291acd4acf06ef112099c16f326-Abstract-Conference.html. Acesso em: 20 abr. 2025.

KOTALWAR, N.; GOTOVOS, A.; SINGLA, A. Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation. 2025. arXiv:2406.05053. Disponível em: https://arxiv.org/abs/2406.05053. Acesso em: 20 abr. 2025.

KOTHE, C. LabStreamingLayer. GitHub Repository, 2014. Disponível em: https://github.com/sccn/labstreaminglayer. Acesso em: 20 abr. 2025.

KRAMER, A. F. Physiological metrics of mental workload: A review of recent progress. In: DAMOS, D. L. (Ed.). Multiple-task performance. London: Taylor & Francis, 1991. p. 279-328.

KRIGOLSON, O. E. et al. Identifying the ERP components associated with reward processing. Neuropsychologia, v. 96, p. 1-14, 2017. DOI: 10.1016/j.neuropsychologia.2017.01.001. Disponível em: https://doi.org/10.1016/j.neuropsychologia.2017.01.001. Acesso em: 20 abr. 2025.

KUMAR, K. et al. LLM Post-Training: A Deep Dive into Reasoning Large Language Models. 2025. arXiv:2502.21321. Disponível em: https://arxiv.org/abs/2502.21321. Acesso em: 20 abr. 2025.

KWON, S. et al. A Novel Personalized Healthcare System for Detecting Atrial Fibrillation Based on a Wearable Electrocardiogram Device. Sensors, v. 23, n. 1, p. 134, 2023. DOI: 10.3390/s23010134. Disponível em: https://doi.org/10.3390/s23010134. Acesso em: 20 abr. 2025.

KWIATKOWSKI, T. et al. Natural Questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, v. 7, p. 453–466, 2019. DOI: 10.1162/tacl_a_00276. Disponível em: https://doi.org/10.1162/tacl_a_00276. Acesso em: 20 abr. 2025.

LABAN, P. et al. InkSync: Aligning Editing Capabilities of Large Language Models. 2024. arXiv:2402.14806. Disponível em: https://arxiv.org/abs/2402.14806. Acesso em: 20 abr. 2025.

LACOSTE, A. et al. Quantifying the Carbon Emissions of Machine Learning. In: WORKSHOP ON TACKLING CLIMATE CHANGE WITH MACHINE LEARNING AT NEURIPS 2019, 2020. arXiv:1910.09700. Disponível em: https://arxiv.org/abs/1910.09700. Acesso em: 20 abr. 2025.

LAMBIOTTE, R.; ROSVALL, M.; SCHOLTES, I. From networks to optimal higher-order models of complex systems. Nature Physics, v. 15, n. 4, p. 313-320, 2019. DOI: 10.1038/s41567-019-0459-y. Disponível em: https://doi.org/10.1038/s41567-019-0459-y. Acesso em: 20 abr. 2025.

LANGCHAIN. LangChain Documentation. 2023. Disponível em: https://python.langchain.com/docs/get_started/introduction. Acesso em: 20 abr. 2025.

LANGCHAIN. LangGraph Documentation. 2024. Disponível em: https://langchain-ai.github.io/langgraph/. Acesso em: 20 abr. 2025.

LESTER, B.; AL-RFOU, R.; CONSTANT, N. The Power of Scale for Parameter-Efficient Prompt Tuning. 2021. arXiv:2104.08691. Disponível em: https://arxiv.org/abs/2104.08691. Acesso em: 20 abr. 2025.

LEWIS, P. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, v. 33, p. 9459-9474, 2020. Disponível em: https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html. Acesso em: 20 abr. 2025.

LI, K.; HOPKINS, A.; BAUCKHAGE, C. LoftQ: Enhanced Initialization for Low-Rank Adaptation. 2023. arXiv:2310.05678. Disponível em: https://arxiv.org/abs/2310.05678. Acesso em: 20 abr. 2025.

LI, X. et al. Prefix-Tuning: Optimizing Continuous Prompts for Generation. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 59., 2021, Online. Proceedings [...]. Stroudsburg: Association for Computational Linguistics, 2021. p. 4582–4597. DOI: 10.18653/v1/2021.acl-long.353. Disponível em: https://doi.org/10.18653/v1/2021.acl-long.353. Acesso em: 20 abr. 2025.

LI, X. et al. SVDQuant: A Novel SVD-Based Quantization Scheme for Large Language Models. 2024. arXiv:2402.14831. Disponível em: https://arxiv.org/abs/2402.14831. Acesso em: 20 abr. 2025.

LIALIN, V.; DESHWAL, A.; RUMSHISKY, A. Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning. 2023. arXiv:2303.15647. Disponível em: https://arxiv.org/abs/2303.15647. Acesso em: 20 abr. 2025.

LIN, J. et al. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. 2024. arXiv:2306.00978. Disponível em: https://arxiv.org/abs/2306.00978. Acesso em: 20 abr. 2025.

LIU, J.; SHA, C.; PENG, X. An empirical study of parameter-efficient fine-tuning methods for pre-trained code models. In: IEEE/ACM INTERNATIONAL CONFERENCE ON AUTOMATED SOFTWARE ENGINEERING (ASE), 38., 2023, Kirchberg. Proceedings [...]. Piscataway: IEEE, 2023. p. 397–408. DOI: 10.1109/ASE56229.2023.00041. Disponível em: https://doi.org/10.1109/ASE56229.2023.00041. Acesso em: 20 abr. 2025.

LIU, Y. et al. AgentBench: Evaluating LLMs as Agents. 2025. arXiv:2308.03688. Disponível em: https://arxiv.org/abs/2308.03688. Acesso em: 20 abr. 2025.

LIU, Y. et al. Evaluating the Logical Reasoning Ability of Large Language Models. 2023. arXiv:2305.11562. Disponível em: https://arxiv.org/abs/2305.11562. Acesso em: 20 abr. 2025.

LUO, J. et al. Large Language Model Agent: A Survey on Methodology, Applications and Challenges. 2025. arXiv:2503.21460. Disponível em: https://arxiv.org/abs/2503.21460. Acesso em: 20 abr. 2025.

LUO, R. et al. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. 2025b. arXiv:2308.08155. Disponível em: https://arxiv.org/abs/2308.08155. Acesso em: 20 abr. 2025.

LV, K. et al. DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting. 2025. arXiv:2503.00784. Disponível em: https://arxiv.org/abs/2503.00784. Acesso em: 20 abr. 2025.

MA, S. et al. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. 2024. arXiv:2402.17764. Disponível em: https://arxiv.org/abs/2402.17764. Acesso em: 20 abr. 2025.

MA, X. et al. Determining Cognitive Workload Using Physiological Measurements: Pupillometry and Heart-Rate Variability. Sensors, v. 24, n. 6, p. 2010, 2024. DOI: 10.3390/s24062010. Disponível em: https://doi.org/10.3390/s24062010. Acesso em: 20 abr. 2025.

MAKOWSKI, D. et al. NeuroKit2: A Python toolbox for neurophysiological signal processing. Behavior Research Methods, v. 53, n. 4, p. 1689-1696, 2021. DOI: 10.3758/s13428-020-01516-y. Disponível em: https://doi.org/10.3758/s13428-020-01516-y. Acesso em: 20 abr. 2025.

MARJANOVIĆ, S. V. et al. DeepSeek-R1 Thoughtology: Let’s about LLM reasoning. 2025. arXiv:2504.07128. Disponível em: https://arxiv.org/abs/2504.07128. Acesso em: 20 abr. 2025.

MAYER, R. E.; MORENO, R. Nine ways to reduce cognitive load in multimedia learning. Educational Psychologist, v. 38, n. 1, p. 43-52, 2003. DOI: 10.1207/S15326985EP3801_6. Disponível em: https://doi.org/10.1207/S15326985EP3801_6. Acesso em: 20 abr. 2025.

META. Llama 3 Models. 2024. Disponível em: https://llama.meta.com/llama3/. Acesso em: 20 abr. 2025.

MWAMBA, E.; NKOSI, F. Human-Centric AI: Understanding and Enhancing Collaboration between Humans and Intelligent Systems. Journal of Algorithm Asynchronous (Algrasy), v. 1, n. 1, p. 33-40, 2023. Disponível em: [URL não fornecido no original]. Acesso em: 20 abr. 2025.

NAGEL, M. et al. A White Paper on Neural Network Quantization. 2021. arXiv:2106.08295. Disponível em: https://arxiv.org/abs/2106.08295. Acesso em: 20 abr. 2025.

NAKAGAWA, S.; SCHIELZETH, H. A general and simple method for obtaining R² from generalized linear mixed-effects models. Methods in Ecology and Evolution, v. 4, n. 2, p. 133-142, 2013. DOI: 10.1111/j.2041-210x.2012.00261.x. Disponível em: https://doi.org/10.1111/j.2041-210x.2012.00261.x. Acesso em: 20 abr. 2025.

NARAYANAN, D. et al. PipeDream: Generalized Pipeline Parallelism for DNN Training. In: ACM SYMPOSIUM ON OPERATING SYSTEMS PRINCIPLES (SOSP '19), 27., 2019, Huntsville. Proceedings [...]. New York: ACM, 2019. p. 1–15. DOI: 10.1145/3341301.3359646. Disponível em: https://doi.org/10.1145/3341301.3359646. Acesso em: 20 abr. 2025.

NGUYEN, H. C.; MAMITSUKA, H. Learning on hypergraphs with sparsity. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 44, n. 10, p. 7113-7127, 2022. DOI: 10.1109/TPAMI.2020.2974746. Disponível em: https://doi.org/10.1109/TPAMI.2020.2974746. Acesso em: 20 abr. 2025.

NI, Jiliang et al. From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs. 2025. Preprint. arXiv:2504.13471v1 [cs.CL]. Disponível em: https://arxiv.org/html/2504.13471v1. Acesso em: 24 abr. 2025.

NIELSEN, J. Usability Engineering. Boston: Academic Press, 1993.

NORMAN, D. A. The psychology of everyday things. New York: Basic Books, 1988.

OPENAI. A practical guide to building agents. OpenAI Business Guides and Resources, 2025. Disponível em: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf. Acesso em: 20 abr. 2025.

OROVAS, C. et al. EEG in Education: A Scoping Review of Hardware, Software, and Methodological Aspects. Brain Sciences, v. 15, n. 2, p. 203, 2024. DOI: 10.3390/brainsci15020203. Disponível em: https://doi.org/10.3390/brainsci15020203. Acesso em: 20 abr. 2025.

OSBORNE, J. W.; OVERBAY, A. The power of outliers (and why researchers should ALWAYS check for them). Practical Assessment, Research, and Evaluation, v. 9, n. 6, 2004. Disponível em: https://scholarworks.umass.edu/pare/vol9/iss1/6/. Acesso em: 20 abr. 2025.

OUYANG, L. et al. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155. Disponível em: https://arxiv.org/abs/2203.02155. Acesso em: 20 abr. 2025.

PAAS, F. Training strategies for attaining transfer of problem-solving skill in statistics: A cognitive-load approach. Journal of Educational Psychology, v. 84, n. 4, p. 429–434, 1992. DOI: 10.1037/0022-0663.84.4.429. Disponível em: https://doi.org/10.1037/0022-0663.84.4.429. Acesso em: 20 abr. 2025.

PAAS, F. et al. Cognitive load measurement as a means to advance cognitive load theory. Educational Psychologist, v. 38, n. 1, p. 63-71, 2003. DOI: 10.1207/S15326985EP3801_8. Disponível em: https://doi.org/10.1207/S15326985EP3801_8. Acesso em: 20 abr. 2025.

PAAS, F.; VAN MERRIËNBOER, J. J. G. Variability of worked examples and transfer of geometrical problem-solving skills: A cognitive-load approach. Journal of Educational Psychology, v. 86, n. 1, p. 122–133, 1994. DOI: 10.1037/0022-0663.86.1.122. Disponível em: https://doi.org/10.1037/0022-0663.86.1.122. Acesso em: 20 abr. 2025.

PAHUNE, Saurabh; AKHTAR, Zahid. Transitioning from MLOps to LLMOps: Navigating the Unique Challenges of Large Language Models. Information, v. 16, n. 2, 87, 2025. DOI: 10.3390/info16020087. Disponível em: https://www.mdpi.com/2078-2489/16/2/87. Acesso em: 24 abr. 2025.

PARK, J. S. et al. Generative Agents: Interactive Simulacra of Human Behavior. 2023. arXiv:2304.03442. Disponível em: https://arxiv.org/abs/2304.03442. Acesso em: 20 abr. 2025.

PENA-PENA, K. et al. Learning hypergraphs tensor representations from data via t-hgsp. IEEE Transactions on Signal and Information Processing over Networks, v. 10, p. 17–31, 2024. DOI: 10.1109/TSIPN.2023.3346205. Disponível em: https://doi.org/10.1109/TSIPN.2023.3346205. Acesso em: 20 abr. 2025.

PENG, Y. et al. GraphRAG: A Retrieval-Augmented Generation Framework for Large Language Models on Graph-Structured Data. 2024. arXiv:2404.17146. Disponível em: https://arxiv.org/abs/2404.17146. Acesso em: 20 abr. 2025.

POPE, A. T.; BOGART, E. H.; BARTOLOME, D. S. Biocybernetic system evaluates indices of operator engagement in automated task. Biological Psychology, v. 40, n. 1-2, p. 187-195, 1995. DOI: 10.1016/0301-0511(95)05126-1. Disponível em: https://doi.org/10.1016/0301-0511(95)05116-3. Acesso em: 20 abr. 2025.

PU, Xiao et al. ThoughtTerminator: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models. 2025. Preprint. arXiv:2504.13367v1 [cs.CL]. Disponível em: https://arxiv.org/html/2504.13367v1. Acesso em: 24 abr. 2025.

PYLE, D. Data preparation for data mining. San Francisco: Morgan Kaufmann, 1999.

RADOSEVICH, B.; HALLORAN, J. T. MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits. 2025. arXiv:2504.03767. Disponível em: https://arxiv.org/abs/2504.03767. Acesso em: 20 abr. 2025.

RAFFEL, C. et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, v. 21, n. 140, p. 1-67, 2020. Disponível em: https://jmlr.org/papers/v21/20-074.html. Acesso em: 20 abr. 2025.

RANALDI, L.; HADDOW, B.; BIRCH, A. Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task. 2025. arXiv:2504.03616. Disponível em: https://arxiv.org/abs/2504.03616. Acesso em: 20 abr. 2025.

RAYNER, K. Eye movements in reading and information processing: 20 years of research. Psychological Bulletin, v. 124, n. 3, p. 372-422, 1998. DOI: 10.1037/0033-2909.124.3.372. Disponível em: https://doi.org/10.1037/0033-2909.124.3.372. Acesso em: 20 abr. 2025.

RETZLAFF, M. et al. Evaluating Large Language Models for HCI. 2024. arXiv:2402.01811. Disponível em: https://arxiv.org/abs/2402.01811. Acesso em: 20 abr. 2025.

RIBEIRO, M. T. et al. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 58., 2020, Online. Proceedings [...]. Stroudsburg: Association for Computational Linguistics, 2020. p. 4902–4912. DOI: 10.18653/v1/2020.acl-main.442. Disponível em: https://doi.org/10.18653/v1/2020.acl-main.442. Acesso em: 20 abr. 2025.

RUBIN, D. B. Multiple imputation for nonresponse in surveys. New York: Wiley, 1987.

SALVUCCI, D. D.; TAATGEN, N. A. Threaded cognition: An integrated theory of concurrent multitasking. Psychological Review, v. 115, n. 1, p. 101-130, 2008. DOI: 10.1037/0033-295X.115.1.101. Disponível em: https://doi.org/10.1037/0033-295X.115.1.101. Acesso em: 20 abr. 2025.

SANH, V. et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. 2019. arXiv:1910.01108. Disponível em: https://arxiv.org/abs/1910.01108. Acesso em: 20 abr. 2025.

SAROUFIM, M. et al. NeurIPS 2023 LLM Efficiency Fine-tuning Competition. 2025. arXiv:2503.13507. Disponível em: https://arxiv.org/abs/2503.13507. Acesso em: 20 abr. 2025.

SCHWARTZ, R. et al. Green AI. Communications of the ACM, v. 63, n. 12, p. 54-63, 2020. DOI: 10.1145/3381831. Disponível em: https://doi.org/10.1145/3381831. Acesso em: 20 abr. 2025.

SHAO, W. et al. OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models. 2024. arXiv:2308.13137. Disponível em: https://arxiv.org/abs/2308.13137. Acesso em: 20 abr. 2025.

SHARMA, N.; KUMAR, P.; LI, Y. OG-RAG: Ontology-Grounded Retrieval-Augmented Generation For Large Language Models. 2024. arXiv:2412.15235. Disponível em: https://arxiv.org/abs/2412.15235. Acesso em: 20 abr. 2025.

SHIFFRIN, R. M.; SCHNEIDER, W. Controlled and automatic human information processing: II. Perceptual learning, automatic attending and a general theory. Psychological Review, v. 84, n. 2, p. 127–190, 1977. DOI: 10.1037/0033-295X.84.2.127. Disponível em: https://doi.org/10.1037/0033-295X.84.2.127. Acesso em: 20 abr. 2025.

SHNEIER, B. Data and Goliath: The hidden battles to collect your data and control your world. New York: WW Norton & Company, 2015.

SOSA, M. E.; EPPINGER, S. D.; ROWLES, C. M. The misalignment of product architecture and organizational structure in complex product development. Management Science, v. 50, n. 12, p. 1674-1689, 2004. DOI: 10.1287/mnsc.1040.0289. Disponível em: https://doi.org/10.1287/mnsc.1040.0289. Acesso em: 20 abr. 2025.

SPIESS, Claudio et al. AutoPDL: Automatic Prompt Optimization for LLM Agents. 2025. Preprint. arXiv:2504.04365v1 [cs.LG]. Disponível em: https://arxiv.org/pdf/2504.04365. Acesso em: 24 abr. 2025.

STIENNON, N. et al. Learning to summarize from human feedback. 2020. arXiv:2009.01325. Disponível em: https://arxiv.org/abs/2009.01325. Acesso em: 20 abr. 2025.

STRUBELL, E.; GANESH, A.; MCCALLUM, A. Energy and Policy Considerations for Deep Learning in NLP. 2019. arXiv:1906.02243. Disponível em: https://arxiv.org/abs/1906.02243. Acesso em: 20 abr. 2025.

SWELLER, J. Cognitive Architecture and Instructional Design. Educational Psychology Review, v. 10, n. 3, p. 251-296, 1998. DOI: 10.1023/A:1022193728205. Disponível em: https://doi.org/10.1023/A:1022193728205. Acesso em: 20 abr. 2025.

SWELLER, J. Cognitive load during problem solving: Effects on learning. Cognitive Science, v. 12, n. 2, p. 257-285, 1988. DOI: 10.1207/s15516709cog1202_4. Disponível em: https://doi.org/10.1207/s15516709cog1202_4. Acesso em: 20 abr. 2025.

SWELLER, J. Cognitive load theory and individual differences. Learning and Individual Differences, v. 109, p. 102423, 2024. DOI: 10.1016/j.lindif.2024.102423. Disponível em: https://doi.org/10.1016/j.lindif.2024.102423. Acesso em: 20 abr. 2025.

SWELLER, J. Cognitive load theory, learning difficulty, and instructional design. Learning and Instruction, v. 4, n. 4, p. 295-312, 1994. DOI: 10.1016/0959-4752(94)90003-5. Disponível em: https://doi.org/10.1016/0959-4752(94)90003-5. Acesso em: 20 abr. 2025.

SWELLER, J. Element interactivity and intrinsic, extraneous, and germane cognitive load. Educational Psychology Review, v. 22, n. 2, p. 123-138, 2010. DOI: 10.1007/s10648-010-9128-5. Disponível em: https://doi.org/10.1007/s10648-010-9128-5. Acesso em: 20 abr. 2025.

SWELLER, J.; CHANDLER, P. Why some material is difficult to learn. Cognition and Instruction, v. 12, n. 3, p. 185-233, 1994. DOI: 10.1207/s1532690xci1203_1. Disponível em: https://doi.org/10.1207/s1532690xci1203_1. Acesso em: 20 abr. 2025.

SWELLER, J.; VAN MERRIENBOER, J. J. G.; PAAS, F. Cognitive Architecture and Instructional Design. Educational Psychology Review, v. 10, n. 3, p. 251-296, 1998. DOI: 10.1023/A:1022193728205. Disponível em: https://doi.org/10.1023/A:1022193728205. Acesso em: 20 abr. 2025.

TANG, B.; CHEN, S.; DONG, X. Hypergraph Structure Inference From Data Under Smoothness Prior. 2023. arXiv:2308.14172. Disponível em: https://arxiv.org/abs/2308.14172. Acesso em: 20 abr. 2025.

TANTITHAMTHAVORN, Chakkrit (Kla) et al. MLOps, LLMOps, FMOps, and Beyond. IEEE Software, v. 42, n. 1, p. 26-32, jan./fev. 2025. DOI: 10.1109/MS.2024.3477014.

TOUVRON, H. et al. Llama 2: Open Foundation and Fine-Tuned Chat Models. 2023b. arXiv:2307.09288. Disponível em: https://arxiv.org/abs/2307.09288. Acesso em: 20 abr. 2025.

TOUVRON, H. et al. Llama: Open and Efficient Foundation Language Models. 2023a. arXiv:2302.13971. Disponível em: https://arxiv.org/abs/2302.13971. Acesso em: 20 abr. 2025.

TRAUNMUELLER, P. et al. Wearable Healthcare Devices for Monitoring Stress and Attention Level in Workplace Environments. 2024. arXiv:2406.05813. Disponível em: https://arxiv.org/abs/2406.05813. Acesso em: 20 abr. 2025.

TRUONG, Q.-T. et al. Towards Automated Testing of LLM-based Applications: A Survey. 2023. arXiv:2311.18119. Disponível em: https://arxiv.org/abs/2311.18119. Acesso em: 20 abr. 2025.

TUKEY, J. W. Exploratory data analysis. Reading: Addison-Wesley, 1977.

UNSLOTH. Unsloth Library. GitHub Repository, 2024. Disponível em: https://github.com/unslothai/unsloth. Acesso em: 20 abr. 2025.

VAITHILINGAM, P. et al. Semantic Commit: Helping Users Update Intent Specifications for AI Memory at Scale. 2025. arXiv:2504.09283. Disponível em: https://arxiv.org/abs/2504.09283. Acesso em: 20 abr. 2025.

VALIPOUR, H. et al. DyLoRA: Parameter-Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation. 2022. arXiv:2210.07558. Disponível em: https://arxiv.org/abs/2210.07558. Acesso em: 20 abr. 2025.

VAN DER AALST, W. M. P. Process mining: data science in action. 2. ed. Berlin: Springer, 2016.

VAN MERRIËNBOER, J. J. G.; SWELLER, J. Cognitive load theory and complex learning: Recent developments and future directions. Educational Psychology Review, v. 17, n. 2, p. 147-177, 2005. DOI: 10.1007/s10648-005-3951-0. Disponível em: https://doi.org/10.1007/s10648-005-3951-0. Acesso em: 20 abr. 2025.

VAN SOMEREN, M. W.; BARNARD, Y. F.; SANDBERG, J. A. C. The think aloud method: A practical guide to modelling cognitive processes. London: Academic Press, 1994.

WANG, H. et al. Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability. 2025a. arXiv:2504.09639. Disponível em: https://arxiv.org/abs/2504.09639. Acesso em: 20 abr. 2025.

WANG, W. et al. FedPETuning: Federated Parameter-Efficient Fine-Tuning of Large Language Models. 2025b. arXiv:2311.18641. Disponível em: https://arxiv.org/abs/2311.18641. Acesso em: 20 abr. 2025.

WANG, Junlin et al. Think Deep, Think Fast: Investigating Efficiency of Verifierfree Inference-time-scaling Methods. 2025c. Preprint. arXiv:2504.14047v1 [cs.AI]. Disponível em: https://arxiv.org/pdf/2504.14047. Acesso em: 24 abr. 2025.

WANG, Hongru et al. OTC: Optimal Tool Calls via Reinforcement Learning. 2025d. Preprint. arXiv:2504.14870v1 [cs.AI]. Disponível em: https://arxiv.org/html/2504.14870v1. Acesso em: 24 abr. 2025.

WATERS, G. S.; CAPLAN, D. Processing resource capacity and the comprehension of garden path sentences. Memory & Cognition, v. 24, n. 3, p. 342–355, 1996. DOI: 10.3758/BF03213298. Disponível em: https://doi.org/10.3758/BF03213298. Acesso em: 20 abr. 2025.

WEI, J. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. 2022a. arXiv:2201.11903. Disponível em: https://arxiv.org/abs/2201.11903. Acesso em: 20 abr. 2025.

WEI, J. et al. Emergent Abilities of Large Language Models. 2022b. arXiv:2206.07682. Disponível em: https://arxiv.org/abs/2206.07682. Acesso em: 20 abr. 2025.

WESKE, M. Business process management: concepts, languages, architectures. 3. ed. Berlin: Springer, 2019.

WEYSSOW, M. et al. Exploring parameter-efficient fine-tuning techniques for code generation with large language models. 2023. arXiv:2308.10462. Disponível em: https://arxiv.org/abs/2308.10462. Acesso em: 20 abr. 2025.

WICKENS, C. D.; HOLLANDS, J. G. Engineering psychology and human performance. 3. ed. Upper Saddle River: Prentice Hall, 2000.

WIJAYA, S. et al. ReadMe.LLM: A Framework to Help LLMs Understand Your Library. 2025. arXiv:2504.09798. Disponível em: https://arxiv.org/abs/2504.09798. Acesso em: 20 abr. 2025.

WILSON, G. F.; RUSSELL, C. A. Operator functional state classification using multiple psychophysiological features in an air traffic control task. Human Factors, v. 45, n. 3, p. 381-389, 2003. DOI: 10.1518/hfes.45.3.381.27249. Disponível em: https://doi.org/10.1518/hfes.45.3.381.27249. Acesso em: 20 abr. 2025.

WOOD, D.; BRUNER, J. S.; ROSS, G. The role of tutoring in problem solving. Journal of Child Psychology and Psychiatry, v. 17, n. 2, p. 89-100, 1976. DOI: 10.1111/j.1469-7610.1976.tb00381.x. Disponível em: https://doi.org/10.1111/j.1469-7610.1976.tb00381.x. Acesso em: 20 abr. 2025.

WOOD, S. N. Generalized additive models: an introduction with R. 2. ed. Boca Raton: CRC press, 2017.

WU, C. et al. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. 2023. arXiv:2303.04671. Disponível em: https://arxiv.org/abs/2303.04671. Acesso em: 20 abr. 2025.

WU, T. et al. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. 2023. arXiv:2308.08155. Disponível em: https://arxiv.org/abs/2308.08155. Acesso em: 20 abr. 2025.

XIA, Shijie et al. Unlocking Deep Thinking in Language Models: Cognition Engineering through Inference Time Scaling and Reinforcement Learning. 2025. Preprint. arXiv:2504.13828v1 [cs.CL]. Disponível em: https://arxiv.org/html/2504.13828v1. Acesso em: 24 abr. 2025.

XIAO, G. et al. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. 2023. arXiv:2211.10438. Disponível em: https://arxiv.org/abs/2211.10438. Acesso em: 20 abr. 2025.

XU, R. et al. Knowledge conflicts for LLMs: A survey. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2024, Miami. Proceedings [...]. Stroudsburg: Association for Computational Linguistics, 2024. p. 8541–8565. DOI: 10.18653/v1/2024.emnlp-main.476. Disponível em: https://aclanthology.org/2024.emnlp-main.476/. Acesso em: 20 abr. 2025.

XU, W. Human-Centered AI. Boca Raton: CRC Press, 2019.

XU, Y. et al. QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models. 2023. arXiv:2309.14717. Disponível em: https://arxiv.org/abs/2309.14717. Acesso em: 20 abr. 2025.

YAO, S. et al. ReAct: Synergizing Reasoning and Acting in Language Models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 2023. Disponível em: https://openreview.net/forum?id=67WPM9hC5li. Acesso em: 20 abr. 2025.

YAO, Z. et al. ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers. 2022. arXiv:2206.01861. Disponível em: https://arxiv.org/abs/2206.01861. Acesso em: 20 abr. 2025.

YERKES, R. M.; DODSON, J. D. The relation of strength of stimulus to rapidity of habit‐formation. Journal of Comparative Neurology and Psychology, v. 18, n. 5, p. 459-482, 1908. DOI: 10.1002/cne.920180503. Disponível em: https://doi.org/10.1002/cne.920180503. Acesso em: 20 abr. 2025.

YU, Y. et al. Cognitive Load Prediction From Multimodal Physiological Signals using Multiview Learning. IEEE Journal of Biomedical and Health Informatics, v. 28, n. 1, p. 486-496, 2024. DOI: 10.1109/JBHI.2023.3346205. Disponível em: https://doi.org/10.1109/JBHI.2023.3346205. Acesso em: 20 abr. 2025.

ZHANG, D. et al. ReSTMCTS: LLM self-training via process reward guided tree search*. Advances in Neural Information Processing Systems, v. 37, p. 64735–64772, 2024. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2024/hash/76ec4dc30e9faaf0e4b6093eaa377218-Abstract-Conference.html. Acesso em: 20 abr. 2025.

ZHANG, J.; NORMAN, D. A. Representations in distributed cognitive tasks. Cognitive Science, v. 18, n. 1, p. 87-122, 1994. DOI: 10.1207/s15516709cog1801_3. Disponível em: https://doi.org/10.1207/s15516709cog1801_3. Acesso em: 20 abr. 2025.

ZHANG, T. et al. LLM-Orchestrator: Orchestrating Collaborative Large Language Models for Automated Software Engineering. 2025a. arXiv:2402.16831. Disponível em: https://arxiv.org/abs/2402.16831. Acesso em: 20 abr. 2025.

ZHANG, Lingzhe et al. XRAGLog: A Resource-Efficient and Context-Aware Log-Based Anomaly Detection Method Using Retrieval-Augmented Generation. 2025b. Preprint/Submissão de Conferência. Disponível em: https://openreview.net/pdf?id=8gv7CXuXQ3. Acesso em: 24 abr. 2025.

ZHAO, P.; YAUN, X. GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models. 2025a. arXiv:2501.12956. Disponível em: https://arxiv.org/abs/2501.12956. Acesso em: 20 abr. 2025.

ZHAO, Baining et al. Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning. 2025b. Preprint. arXiv:2504.12680v1 [cs.AI]. Disponível em: https://arxiv.org/html/2504.12680v1. Acesso em: 24 abr. 2025.

ZHOU, D. et al. Least-to-most prompting enables complex reasoning in large language models. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 11., 2023. Disponível em: https://openreview.net/forum?id=WZH7099tgfM. Acesso em: 20 abr. 2025.

ZHUGE, M. et al. Mindstorms in Natural Language: A Survey of LLM-based Agents. 2024. arXiv:2311.01398. Disponível em: https://arxiv.org/abs/2311.01398. Acesso em: 20 abr. 2025.

ZIMMERMAN, B. J. Becoming a self-regulated learner: An overview. Theory Into Practice, v. 41, n. 2, p. 64-70, 2002. DOI: 10.1207/s15430421tip4102_2. Disponível em: https://doi.org/10.1207/s15430421tip4102_2. Acesso em: 20 abr. 2025.

ZOU, L. et al. GraphRAG: A Survey on Retrieval-Augmented Generation for Graph-Structured Data. 2025. arXiv:2504.08967. Disponível em: https://arxiv.org/abs/2504.08967. Acesso em: 20 abr. 2025.

Page updated

Google Sites

Report abuse