sgidi







PORTAL SGIDI

Sistema de Gestão da Investigação, Desenvolvimento e Inovação 

DOCUMENTOS










Atas de acompanhamento e revisão pela gestão:


Documentos preparatórios:



REGISTO DE IDEIAS E PROJETOS

RG 03 e RG05


31 de Março de 2023, EB

Modelos fundacionais e tradução

O GPT & Ca. é considerado "uma maravilha de multilinguismo" (ultimo The Economist) e uma ferramenta muito capaz de tradução, especialmente em linguas "com mais recursos". Parece ser consensual que o futuro da tradução será hibrido com "pós processamento editorial" humano e que a tradução trivial será feita por AI (LLM combinado com outros modelos MT). Ler os jornais antigos é, ao fim e ao cabo, um problema de tradução: passar do texto com erros para o texto sem erros e eventualmente convertido para a linguagem (estilo) atual. As experiencias de "tradução" que fizemos (reescrita de partes de textos de noticias originais) parecem confirmar isto.
Logo uma app que use um modelo LLM refinado para o contexto dos jornais (o universo linguistico de base) deverá permitir consultar / traduzir o texto dos jornais e responder a perguntas (prompts) dentro desse universo. Isto significa passar por cima da questão do reconhecimento correto dos carateres gráficos mesmo correndo o risco de alguns erros. Parece semelhante a traduzir crioulo ou mirandes para portugues corrente ou vice versa. Esta abordagem à leitura e "search" nos jornais ultrapassarria as dificuldades do reconhecimento de carateres e permite "salvar" scannings já feitos e com eventual com pior qualidade (caso dos nossos jornais).
O q compreendi do VertexAI e do GenAppBuilder da Google é que permitem fazer isto com facilidade e rapidez e são o "frontend" de abertura da tecnologia pela Google para inserção de facilidades AI nas apps de processos correntes. O "tuning" (ou "fine tuning") do Vertex parece-me ser isso, um processo de ML machine learning automatico que compreendo corresponder a restringir o universo de aplicação do LLM ao contexto proporcionado pelos dados (neste caso, os textos txt das colunas dos jornais). Presumo que "tokens" que não aparecem nos dados não devem ser usadas (seja o que for q se entenda por token neste caso) pela app: parece corresponder a gerar um modelo LLM simplificado para os dados submetidos. Este treino do modelo parece ser feito automáticamente pelo Vertex AI com a possibilidade de escolha de diferentes modelos fundacionais (o "model garden").

ID17. 30 de Março de 2023, JCA
Modelos fundacionais de IA aplicados a um universo especifico de conteudos


ID16. 10 de março de 2023, EB

Experiencias VR/MR em museologia digital com hololens


ID15, 1 de março de 2023, EB. II15, PJ7 PROJETO CONCLUIDO

Listar os produtos da loja online Inovatec Press no Google Merchant Center


ID14. 29 de Fevereiro de 2023, EB

Expansão da Inovatec Press para os mercados de lingua portuguesa



ID13. 28 de Fevereiro de 2023, JB; II13

Potencial de tecnologias holow lens para performances e instalações Datagrama


ID12. 28 de Fevereiro de 2023, JB

Potencial de tecnologias audio 3D para performances e instalações Datagrama

ID11. 13 de Fevereiro de 2023, JB; II11

memTSI:UP Memória das tecnologias de informação na Universidade do Porto

ID10. 18 de Janeiro de 2023, JCA; II10, PJ6 PROJETO EM CURSO

Reconstrução de textos antigos por OpenGPT

ID9. 20 de novembro de 2022, NB; II9

Emidio Biel e a linha do Tua


ID8. 15 de novembro de 2022, NB; II8

Segurança de bens em festivais (Matilha)


ID7. 31 de julho de 2022, EB; II7

Digitalização de manuscritos e fichas da Sociedade de Geografia de Lisboa


ID6. 15 de julho de 2022, EB; II6, PJ5 PROJETO EM CURSO

Reorganizar e melhorar o site inovatec.pt


ID5. 1 de junho de 2022, EB; II5, PJ4 PROJETO EM CURSO

Digitalização de fichas de coleções de história natural


ID4. 13 de março de 2022, EB; II4, PJ3 PROJETO CONCLUIDO

Palaforma (cloud) para consulta e acesso a jornais diários 

ID3. 10 de novembro de 2021, EB; II3, PJ2 PROJETO CONCLUIDO; INSTALAÇÃO EM CURSO

Digitalização de fichas bibliográficas manuscritas


ID2. 11 de março de 2021, EB; II2, PJ1 PROJETO CONCLUIDO

JornaisXIX: Digitalização de jornais diários (século XIX)


ID1. 1 de dezembro de 2018, EB; II1

memDÃO: Memória da linha do Dão



VIGILÂNCIA TECNOLÓGICA E ECONÓMICA,
GESTÃO DO CONHECIMENTO

Sistema de alertas

8 de outubro de 2023, EB

Projeto Traprinq (com Transcribus): transcrever os procesos da inquisição portuguesa (1536-1821) 

Projeto CLARA-HD (com Transcribus): Diário de Madrid (1788-1825):


8 de Agosto de 2023, EB

AI can identify passwords by sound of keys being pressed, study suggests. Researchers create system using sound recordings that can work out what is being typed with more than 90% accuracy.



12 de junho de 2023, JCA

Novidades de Machine Learning da Apple na WWDC, incluido o seu software com UI, que não necessita de código:


Versão 2 de um produto de geração de vídeo via prompts, dos mesmos investigadores que criaram o Stable Diffusion:


15 de maio de 2023, JCA

Um bom guia, extraído da experiência interna de uma empresa, sobre Large Language Models e conselhos sobre ‘prompts’:

11 de maio de 2023, JCA

Uma equipa, que saiu da OpenAI há uns anos, anunciou um modelo que suporta até 100k tokens (cerca de 75k palavras), muito além dos 4k disponíveis actualmente no GPT3 da OpenAI. Talvez seja útil experimentar com jornais inteiros, com as colunas por ordem, assim os textos ficam com o contexto inteiro, ajudando na correcção.

24 de abril de 2023, AA

Sobre a geração de prompts nos modelos AI: "In this blog post, I will make the argument that prompt engineering is a real skill that can be developed based on real experimental methodologies. I will use a realistic example to walk through the process of prompt engineering a solution to a problem that provides practical value to an application."

21 de abril de 2023, EB

14 de abril de 2023, JCA

Anuncio de novo serviço da Amazon: AWS BEDROCK, serviços AI de modelos fundacionais para objetivos especializados

29 de Março de 2023, EB

3 de Março de 2023, JCA

3 de Março de 2023, JCA

2 de Março de 2023, EB

27 de Janeiro de 2023, AA

Tecnologias OCR. digitalização de jornais

21 de setembro de 2022, JCA

"Speech recognition", identificação de palavras em ficheiros de audio, exemplos de aplicação Whisper da OpenAI (https://openai.com/research/whisper )

30 de julho de 2022, EB

Reconstrução histórica das notícias sobre “Carrazeda de Ansiães” (um concelho do vale do Tua, o “interior” do interior do norte de Portugal) a partir das ocorrências nos dois periódicos entre 1883 e 1893, parte de uma investigação em curso sobre a história da região nos finais do século XIX (a ortografia dos textos originais foi corrigida com a ajuda do corretor do Google Docs)

20 de julho de 2022, AA

Notas sobre o layout das fichas da Botânica (mhnc):

Tabelas com as características das imagens das 3 gavetas digitalizadas da Botânica (mhnc):

12 de julho de 2022, AA

Notas sobre o layout das fichas da Botânica (mhnc):

Tabelas com as características das imagens das 3 gavetas digitalizadas da Botânica (mhnc):

5 de julho de 2022, AA

Revisão do estado da arte de 2022, dos vários serviços cloud, para extração de informação de fichas:

5 de julho de 2022, EB

Avaliação da correcção de erros pelo corrector ortográfico do google docs:

20 de junho de 2022, JCA

A framework for designing document processing solutions

11 de fevereiro de 2022, EB

Tutorial: Beginner’s guide to machine learning in R

23 de julho de 2021, JCA

desenvolvimentos no conversor Google Cloud Vision para hOCR

19 de abril de 2021, JCA

hOCR tools