SubQ e la sfida architetturale al transformer

Lanciato il 4 maggio 2026 dalla startup Subquadratic di Miami con 29 milioni di dollari di seed, il modello propone una finestra di contesto da 12 milioni di token con scalabilità lineare. Tra promesse di efficienza, dati in larga parte self-reported e potenziali implicazioni sistemiche per la pipeline RAG

di Francesco Pungitore

Da quando Vaswani e colleghi pubblicarono Attention Is All You Need nel 2017, l'intero ecosistema dei modelli linguistici di grandi dimensioni si è sviluppato attorno a un vincolo matematico apparentemente ineludibile: la complessità quadratica O(n²) del meccanismo di self-attention rispetto alla lunghezza della sequenza. Ogni token calcola prodotti scalari con ogni altro token, generando una matrice di attenzione che cresce con il quadrato dell'input. È il prezzo pagato all'espressività rappresentazionale che ha reso il transformer l'architettura egemone dell'ultimo decennio.

L'annuncio di SubQ — primo modello commerciale dichiaratamente subquadratico, rilasciato in beta privata lo scorso 4 maggio da Subquadratic dopo un seed round da 29 milioni di dollari — riporta al centro del dibattito una questione che la ricerca persegue da quasi dieci anni: si può rompere il vincolo quadratico senza compromettere le capacità di ragionamento del modello?

Per cogliere la portata della questione conviene un istante di pausa dal lessico tecnico. Il transformer — l'architettura su cui poggiano oggi tutti i grandi modelli linguistici commerciali, da GPT a Claude a Gemini — funziona facendo "parlare tra loro" tutte le parole di un testo: ogni unità linguistica confronta sé stessa con ogni altra, alla ricerca delle relazioni semantiche da cui dipende la comprensione del significato. È questo meccanismo, chiamato self-attention, ad aver reso i modelli straordinariamente abili nel cogliere contesti, ironie, riferimenti incrociati; ma è lo stesso meccanismo a condannarli a un costo che cresce con il quadrato della lunghezza dell'input. Raddoppiare il testo non raddoppia il lavoro: lo quadruplica. Quadruplicarlo lo moltiplica per sedici. Da qui la pressione, ormai pluriennale, verso un'alternativa: conservare la capacità di comprensione del transformer pagando, però, un prezzo che cresca in modo lineare — proporzionale, non esplosivo. È precisamente la promessa che SubQ rivendica oggi di aver mantenuto, ed è il fronte su cui la ricerca accademica si muove da quasi un decennio con risultati alterni che vale la pena ricostruire.

Una genealogia subquadratica

SubQ non nasce in un vuoto teorico. La letteratura sui meccanismi di attenzione efficienti è densa: dalle proiezioni a basso rango di Linformer (Wang et al., 2020) alle approssimazioni stocastiche di Performer con kernel FAVOR+ (Choromanski et al., 2021), passando per le maschere strutturate di Longformer e BigBird, fino alle architetture state-space della famiglia S4/Mamba (Gu, Dao et al., 2022-2024), che bypassano integralmente l'attenzione in favore di convoluzioni globali apprese. Ognuno di questi tentativi ha dovuto negoziare un trade-off tra efficienza computazionale ed espressività — un compromesso che ha storicamente impedito alle alternative subquadratiche di scalare al regime prestazionale dei transformer densi nei benchmark generalisti.

SubQ rivendica di aver superato questo trade-off attraverso un'architettura denominata SSA (Sparse Subquadratic Attention) che, secondo la documentazione resa pubblica dalla startup, identifica selettivamente le relazioni token-to-token semanticamente rilevanti, eliminando dal calcolo le interazioni a basso contenuto informativo. Il risultato dichiarato è una scalabilità lineare: raddoppiare l'input raddoppia il costo, non lo quadruplica. A 12 milioni di token — il limite teorico dell'architettura annunciato come research result, benché il modello in beta privata sia attualmente limitato a 1 milione di token — la riduzione computazionale rispetto a FlashAttention sarebbe di circa tre ordini di grandezza.

I numeri, e le loro condizioni di possibilità

Le metriche pubblicate collocano SubQ in un territorio aggressivo: 150 token al secondo in generazione, 52× più veloce di FlashAttention su sequenze da un milione di token, 81.8% su SWE-bench, 98% di accuratezza in long-context retrieval a contesto pieno. Il pricing — 0,25 dollari per milione di token in input, 1,25 in output — si attesta intorno a un quinto del costo di Claude Opus, ridefinendo la frontiera economica per casi d'uso a contesto intensivo.

I dati attualmente verificati in modo indipendente includono tre benchmark: SWE-bench (81.8%), RULER @ 128K (95.6%) e MRCR v2 con configurazione 8-needle a 1M token (86.2%). Le altre metriche — inclusa la dichiarata accuratezza del 98% su long-context retrieval e la finestra effettiva da 12 milioni di token — provengono da test interni e la beta privata limita per ora la possibilità di scrutinio metodologico esterno.

Per uno specialista, questo è il punto critico: nella long-context evaluation la geometria del benchmark conta quanto il valore numerico finale. Un needle-in-a-haystack su input sintetici è notoriamente più permissivo di un multi-hop reasoning su corpus reali, e la robustezza dichiarata al 98% andrà testata su suite come LongBench, InfiniteBench o RULER esteso, dove i modelli annunciati a lungo contesto tendono a degradare significativamente oltre il proprio sweet spot effettivo — il fenomeno del context utilization gap documentato da Liu et al. (2023) sui transformer commerciali.

L'obsolescenza programmata della pipeline RAG

Se le rivendicazioni di SubQ reggessero al vaglio replicativo, l'impatto sull'architettura applicativa dell'IA generativa non sarebbe incrementale. Buona parte dell'ingegnerizzazione attuale — chunking, embedding, vector store, retrieval-augmented generation, context compression, gerarchie di summarization — è una elaborata patch eretta attorno ai limiti di contesto dei transformer. Una finestra effettiva da 12M token con accuratezza preservata renderebbe molti di questi pattern non obsoleti, ma opzionali: la retrieval tornerebbe ad essere un'ottimizzazione di costo, non un requisito strutturale.

L'implicazione strategica è duplice. Per i grandi laboratori — Anthropic, OpenAI, Google DeepMind — investiti in miglioramenti incrementali al paradigma transformer (FlashAttention-3, grouped-query attention, mixture-of-experts), un eventuale successo di un'architettura genuinamente subquadratica riaprirebbe lo spazio competitivo a livello fondazionale. Per l'ecosistema RAG (Pinecone, Weaviate, LangChain e affini) si profilerebbe un orizzonte di marginalizzazione, almeno per i casi d'uso in cui il contesto effettivo non eccede l'ordine dei milioni di token.

Lo scetticismo necessario

La storia recente dell'IA è popolata di annunci architetturalmente disruptive rivelatisi poi incrementali, o le cui promesse di efficienza si sono dissolte sotto carichi reali. Mamba, S4 e le loro varianti hanno mostrato capacità reali, ma non hanno (ancora) soppiantato il transformer nei benchmark generalisti. La postura metodologica corretta, davanti a SubQ, è dunque cauta: rivendicazioni straordinarie esigono evidenza straordinaria, e una beta privata con metriche in larga parte self-reported non costituisce evidenza sufficiente.

Tre verifiche saranno dirimenti nei prossimi mesi. La prima: replicazione indipendente delle metriche di latenza e accuratezza su benchmark standardizzati e su carichi adversarial. La seconda: pubblicazione di un paper architetturale con dettagli sufficienti a consentire ablazioni — quale è la struttura di sparsità effettiva di SSA? È appresa o imposta a priori? Come si comporta su distribuzioni linguistiche fuori dominio e su lingue diverse dall'inglese? La terza: stabilità in produzione su workload reali, dove la varianza di latenza e i fallimenti silenziosi su contesti patologici sono i veri discrimini tra una dimostrazione tecnica e un prodotto enterprise-grade.

Un cambio di paradigma, o la sua promessa

SubQ è, allo stato attuale delle informazioni disponibili, una promessa supportata da indizi tecnici plausibili e da tre metriche verificate indipendentemente. Se le sue rivendicazioni reggeranno, il 2026 potrebbe essere ricordato come l'anno in cui il monopolio architetturale del transformer ha iniziato a incrinarsi — non per stanchezza, ma per superamento. Se non reggeranno, sarà l'ennesimo episodio di un ciclo familiare: annuncio dirompente, benchmark scintillanti, ridimensionamento empirico.

In entrambi i casi, l'ingresso di un attore commerciale che scommette esplicitamente sul superamento dell'O(n²) segnala un fatto strutturale: dopo anni di scaling laws e ottimizzazioni hardware, la frontiera dell'innovazione nei modelli linguistici sta tornando sul terreno dell'architettura. È il terreno in cui, storicamente — dal percettrone al transformer — si producono le rotture concettuali che ridefiniscono il campo.

In parole semplici: cosa sta succedendo davvero

Immaginate una riunione in cui ogni partecipante, prima di parlare, deve ascoltare e ricordare quello che hanno detto tutti gli altri. Con dieci persone è gestibile. Con cento diventa un incubo. Con mille è impossibile. È più o meno quello che accade dentro i modelli di intelligenza artificiale come ChatGPT, Claude o Gemini: ogni parola del testo che l'IA sta leggendo deve "confrontarsi" con tutte le altre. Più lungo è il testo, più il costo cresce in modo esplosivo — non raddoppia se raddoppiamo le parole, ma quadruplica. È questa la ragione tecnica per cui, oggi, l'IA fatica a leggere documenti molto lunghi in un colpo solo, e per cui si è dovuta inventare una serie di "trucchi" (spezzettare i testi, recuperare solo i pezzi rilevanti, riassumerli passo passo) per aggirare il problema.

SubQ — il modello appena annunciato da una startup di Miami — promette di aver trovato una scorciatoia matematica. Anziché obbligare ogni parola a confrontarsi con tutte le altre, individua solo i collegamenti che contano davvero e ignora il resto. Risultato dichiarato: il costo cresce in modo proporzionale, non esplosivo, e il modello riesce a leggere in un colpo solo fino a dodici milioni di token — l'equivalente di una piccola biblioteca, o di anni di conversazioni con un cliente, o dell'intero codice di un software complesso. Il tutto costando circa un quinto dei concorrenti.

Se la promessa fosse mantenuta, cambierebbe molto: molte delle infrastrutture costose costruite intorno all'IA negli ultimi due anni — quelle che servono proprio a "ingannare" la sua memoria corta — diventerebbero superflue. Ma proprio qui sta il punto su cui ogni osservatore serio deve restare prudente: per ora SubQ è in beta privata, i numeri più rilevanti vengono quasi tutti dall'azienda stessa, e solo tre test sono stati verificati da terze parti. Nella storia recente dell'IA, annunci altrettanto roboanti si sono poi sgonfiati al primo contatto con il mondo reale. Vale la pena seguirne gli sviluppi, dunque, ma con la stessa calma con cui un medico aspetta i risultati di una sperimentazione clinica prima di cambiare la terapia: l'entusiasmo viene dopo la verifica, non prima.

[14.05.2026]

Sitografia

Fonti primarie

Subquadratic, Introducing SubQ: The First Fully Subquadratic LLM, in "SubQ.ai", 4 maggio 2026, https://subq.ai/introducing-subq

Subquadratic, Subquadratic — Efficiency is Intelligence (documentazione tecnica architettura SSA), in "SubQ.ai", 4 maggio 2026, https://subq.ai/research/ssa

Analisi tecniche e approfondimenti

The Math Problem Defining Every AI Model Since 2017 May Finally Be Solved, in "Tech Fast Forward", 6 maggio 2026, https://techfastforward.com/articles/subquadratic-subq-29m-seed-12m-token-1000x-compute-reduction-2026

SubQ Explained: The Subquadratic LLM Changing AI Math, in "Axentia", 5 maggio 2026, https://axentia.in/blog/subq-explained-the-subquadratic-llm-changing-ai-math

The First Subquadratic LLM with a 12 Million Token Context, in "FelloAI", 5 maggio 2026, https://felloai.com/ko/subq-llm-review/

SubQ, an efficient AI model designed to outperform Claude Opus, in "Gigazine", 6 maggio 2026, https://gigazine.net/gsc_news/en/20260507-subq-1m-preview/

Contesto architetturale e letteratura di riferimento

Vaswani A. et al., Attention Is All You Need, arXiv:1706.03762, 11 giugno 2017, https://arxiv.org/abs/1706.03762

Dao T. et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, arXiv:2205.14135, 26 maggio 2022, https://arxiv.org/abs/2205.14135

Dao T., FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, arXiv:2307.08691, 16 luglio 2023, https://arxiv.org/abs/2307.08691

Demystifying Sparse Attention: Longformer, BigBird, Reformer, and Linformer Explained, in "Medium", 29 giugno 2025, https://medium.com/@rajboopathiking/demystifying-sparse-attention-longformer-bigbird-reformer-and-linformer-explained-029b975881

Mamba (deep learning architecture), in "Wikipedia", ultimo aggiornamento 12 gennaio 2024, https://en.wikipedia.org/wiki/Mamba_(deep_learning_architecture)

Benchmark e valutazioni

New AI Models May 2026: The Frontier Took a Breath, in "WhatLLM.org", 12 maggio 2026, https://whatllm.org/blog/new-ai-models-may-2026

AI Updates Today (May 2026) – Latest AI Model Releases, in "LLM-Stats.com", 13 maggio 2026, https://llm-stats.com/llm-updates

Contenuti multimediali

SubQ AI Architecture Could Replace Transformers Forever, YouTube, 7 maggio 2026, https://www.youtube.com/watch?v=QVOILOdjjWY

Subquadratic: The Transformer Killer, YouTube, 6 maggio 2026, https://www.youtube.com/watch?v=LDIC8Js-Oq8

Annunci istituzionali

Grishin Robotics, post su X/Twitter, 5 maggio 2026, https://x.com/GrishinRobotics/status/2051957425129824506

Nota metodologica: Tutte le fonti sono state consultate il 14 maggio 2026. I dati quantitativi riportati nell'articolo (benchmark, pricing, specifiche tecniche) provengono in larga parte da comunicazioni della startup Subquadratic e richiedono validazione indipendente estesa, ad eccezione dei punteggi su SWE-bench (81.8%), RULER @ 128K (95.6%) e MRCR v2 (86.2%), verificati da terze parti. La sitografia riflette lo stato della documentazione pubblica disponibile al momento della stesura.

Page updated

Google Sites

Report abuse