Vull crear automatitzacions amb N8N que, en primera instància em facilitin a mi la vida i posteriorment puguin esdevenir serveis o complements a serveis per altres persones.
La primera cosa que vull és un lloc on poder abocar tot el que em passa pel cap dels diferents projectes que tinc engegats i que després ho pugui consultar.
No és fàcil. El primer pas és tenir una eina que em transcrigui audios de forma eficient i per poder entreteixir els diferents passos que vull fer després he d'integrar-ho amb N8N.
Ara per ara, ja tinc Docker instal·lat per fer les diferents virtualitzacions on correrà N8N. Després de barallar-me amb les solucions que em donava Chat GPT he provat amkb Gemini i m'està ajudant a fer-ho d'una forma més robusta. Hem estat provant d'utilitzar APIs d'altres per poder utilitzar Whisper però no ha fuincionat. Pel que entenc, APIs públiques van força buscades i la gent les protegeix i et fa passar per caixa. Ho entenc. Som una colla de rapinyaires.
Ara estem montant en local una versió de Whisper configurada de manera que N8N hi accedeixi igualment per API (que es veu que és la manera com li va millor a N8N). Lògicament, anirà a poc a poc perquè estic fent proves amb un ordinador convencional per veure si és imprescindible invertir el GPUs per poder escalar aquestes idees.
Al final he aconseguit tenir els 2 contenidors, un amb Whisper i l'altre amb N8N. Tot amb una configuració que hauria de permetre que demà pugui fer proves amb audios. Un dels problemes serà que el format natiu de Telegram és OGX i Whisper no el suporta. Però mica en mica!