I siste del av prosjektet har jeg jobbet mye med å fikse prompts til LLM slik at jeg får gode oppsummeringer og filtrerer vekk riktige artikler.
Nå lagres en oppsummering av både relevante og ikke relevante artikler, og dette har hjulpet mye for filtreringen og promptene til LLM modellen siden jeg kunne se hvorfor den vurderte artikler som ikke relevant og endre det som var feil filtrert.
En annen viktig ting jeg har implementert er en bedre løsning for visning av artiklene slik at digins medlemmer enkelt kan se nye oppdateringer. Nå sendes alle relevante artikler til et google spreadsheet automatisk slik at det alltid ligger tilgjengelig.
Det er fortsatt en del finpuss igjen, men slik som det er nå så fungerer systemet relativt bra.
Litt oppsummerende er det omlag 80 nettsider som skrapes og 20 RSS-feeds som sjekkes mot mange kodeord som sjekker relevansen. Deretter sjekkes artikkelene mot databasen for å sjekke om det allerede er laget en oppsummering av den enkelte artikkelen. Hvis det ikke er gjort det, sendes den videre til en LLM som leser hele artikkelen og deretter lager en bedre oppsummering, eller filtrere de ut. Herfra sendes artiklene til Supabase databasen min, spreadsheet, og nettsiden som programmet kjører på som viser alle de relevante artiklene.
Det har vært en ganske bratt læringskurve og jeg føler jeg har lært veldig mye forskjellig i dette prosjektet. Det aller meste jeg har gjort i dette prosjektet har vært helt nytt for meg, og jeg har nå fått en god del erfaring med Python, webscraping, API integrasjoner, prompts til LLM og masse andre småting som jeg kan bruke senere i studiet og i jobb.
Jeg syns det har vært veldig gøy og givende, og føler jeg har fått mye god erfaring og kunnskap som vil hjelpe meg i fremtiden.