sgidi
PORTAL SGIDI
Sistema de Gestão da Investigação, Desenvolvimento e Inovação
DOCUMENTOS
Repositório: Google Drive: pasta NI&D/SGIDI (link)
Repositório Github: link
Gravações das reuniões NID (Zoom): aqui
RG 07_01: Plano de auditoria interna (junho 2023, pdf)
RG 08_01: Relatório da auditoria interna (junho 2023, doc) (auditor: cv0, cv1, cv2)
RG 07:02: Plano de auditoria externa, fase 1 (julho 2023, pdf)
RG 08_02: Relatório de auditoria externa, fase I (julho 2023, pdf)
RG 07_03: Plano de auditoria externa, fase 2 (setembro 2023, pdf)
Mapas de processos:
PR 01_00: Controlo da informação documentada (doc)
PR 02_00: Controlo da conceção (doc)
PR 03_00: Gestão de ideias e iniciativas de inovação (doc)
PR 04_00: Gestão das interfaces (doc)
PR 05_00: Recursos humanos (doc)
PR 06_00: Auditorias interna (doc)
PR 07_00: Não conformidades, ações corretivas e de melhoria (doc)
Registos:
RG 01_00 Matriz de uso e controlo de documentos (xls)
RG 04_00 Matriz de de ideias e projetos (xls): ver aqui (botão)
RG 05_00 Fichas de ideias e projetos (aqui) e respetivos cronogramas (aqui, botão)
RG 07_00 Plano de auditoria (doc)
RG 08_00 Relatório de auditoria (doc)
RG 09_00: Matriz de riscos e oportunidades (doc)
Atas de acompanhamento e revisão pela gestão:
Ata #8, 1 de Agosto de 2023 (doc)
Ata #7, 1 de Julho de 2023 (doc)
Ata #6, 23 de junho de 2023, revisão pela gestão (doc)
Ata #5, 1 de Junho de 2023 (doc)
Ata #4, 1 de Maio de 2023 (doc)
Ata #3, 1 de Abril de 2023 (doc)
Ata #2, 1 de março de 2023 (doc)
Ata #1, 1 fevereiro de 2023 (doc)
Documentos preparatórios:
Registos online: workflow e sistema documental (doc)
Contexto externo e fontes para vigilância tecnológica (doc)
[v11 (doc) ]
REGISTO DE IDEIAS E PROJETOS
RG 03 e RG05
31 de Março de 2023, EB
Modelos fundacionais e tradução
O GPT & Ca. é considerado "uma maravilha de multilinguismo" (ultimo The Economist) e uma ferramenta muito capaz de tradução, especialmente em linguas "com mais recursos". Parece ser consensual que o futuro da tradução será hibrido com "pós processamento editorial" humano e que a tradução trivial será feita por AI (LLM combinado com outros modelos MT). Ler os jornais antigos é, ao fim e ao cabo, um problema de tradução: passar do texto com erros para o texto sem erros e eventualmente convertido para a linguagem (estilo) atual. As experiencias de "tradução" que fizemos (reescrita de partes de textos de noticias originais) parecem confirmar isto.
Logo uma app que use um modelo LLM refinado para o contexto dos jornais (o universo linguistico de base) deverá permitir consultar / traduzir o texto dos jornais e responder a perguntas (prompts) dentro desse universo. Isto significa passar por cima da questão do reconhecimento correto dos carateres gráficos mesmo correndo o risco de alguns erros. Parece semelhante a traduzir crioulo ou mirandes para portugues corrente ou vice versa. Esta abordagem à leitura e "search" nos jornais ultrapassarria as dificuldades do reconhecimento de carateres e permite "salvar" scannings já feitos e com eventual com pior qualidade (caso dos nossos jornais).
O q compreendi do VertexAI e do GenAppBuilder da Google é que permitem fazer isto com facilidade e rapidez e são o "frontend" de abertura da tecnologia pela Google para inserção de facilidades AI nas apps de processos correntes. O "tuning" (ou "fine tuning") do Vertex parece-me ser isso, um processo de ML machine learning automatico que compreendo corresponder a restringir o universo de aplicação do LLM ao contexto proporcionado pelos dados (neste caso, os textos txt das colunas dos jornais). Presumo que "tokens" que não aparecem nos dados não devem ser usadas (seja o que for q se entenda por token neste caso) pela app: parece corresponder a gerar um modelo LLM simplificado para os dados submetidos. Este treino do modelo parece ser feito automáticamente pelo Vertex AI com a possibilidade de escolha de diferentes modelos fundacionais (o "model garden").
ID17. 30 de Março de 2023, JCA
Modelos fundacionais de IA aplicados a um universo especifico de conteudos
sugiro que se faça uma experiência inicial mais simples. Pegar num livro, não traduzido, algo original. Criar algo em que se pode processar esse documento PDF e depois usar GPT para efectuar questões sobre o mesmo. Se resultar, ver como se pode escalar para jornais.
Ver este vídeo de youtube, 11 minutos, python notebooks e alguns serviços externos (tem o custo da base de dados vectoriais, produzir embedings na OpenAI e depois cada query/questão): https://www.youtube.com/watch?v=h0DHDp1FbmQ
ID15, 1 de março de 2023, EB. II15, PJ7 PROJETO CONCLUIDO
Listar os produtos da loja online Inovatec Press no Google Merchant Center
ID14. 29 de Fevereiro de 2023, EB
Expansão da Inovatec Press para os mercados de lingua portuguesa
Integrar produtos da Inovatec Press em plataformas brasileiras com print on demand e plataformas nacionais com distribuição digital para os paises de lingua portuguesa
ID13. 28 de Fevereiro de 2023, JB; II13
Potencial de tecnologias holow lens para performances e instalações Datagrama
Oportunidades para novas experiências de realidade virtual/realidades mistas em instalações artisticas Datagrama usando a tecnologia "holow lens" da Microsoft
ID12. 28 de Fevereiro de 2023, JB
Potencial de tecnologias audio 3D para performances e instalações Datagrama
Potencial das tecnologias audio ambisonics 3D em performances e instalações artisticas Datagrama (camada adicional nos modelos Datagrama de VR/MR: speakers com geometrias espaciais de alinhamento, complementaridade sensorial)
ID11. 13 de Fevereiro de 2023, JB; II11
memTSI:UP Memória das tecnologias de informação na Universidade do Porto
Uma década depois, a experiencia adquirida com o projeto memTSI pode ser interessante para uma nova iniciativa desse tipo, mas agora restrita ao universo da Universidade do Porto e ao papel da UP na inovação tecnológica neste domínio ao longo de um período histórico de três décadas e do seu impacto territorial e nacional. Muitos dos primeiros atores desta história, desde os anos 60, estão ainda vivos, pelo que uma iniciativa deste tipo parece oportuna e segue as tendências internacionais para preservar a memória das tecnologias da informação com base em história oral (entrevistas) dos protagonistas
ID9. 20 de novembro de 2022, NB; II9
Emidio Biel e a linha do Tua
As fotografias de Emilio Biel sobre a linha do Tua continuam pouco conhecidas. Uma exposição dessas fotos com um programa associado de sessões sobre E. Biel e sobre a a história da linha do Tua pode constituir uma oportunidade com a Universidade do Porto (Galeria da Biodiversidade) e para um "road show" pelos cinco concelhos do vale do Tua (em colaboração com a Agencia Regional do Vale do Tua) e assim difundir os trabalhos desenvolvidos no projeto FOZTUA sobre o assunto (Cf. livro "A linha do Tua, 1887, e as fotografias de E. Biel"
ID8. 15 de novembro de 2022, NB; II8
Segurança de bens em festivais (Matilha)
Os participantes dos festivais de musica, arte, etc têm habitualmente o problema da segurança (carteira, documentos, computador, etc.) assim como dificuldade de acesso a redes wifi de internet. Propõe-se explorar a ideia de um camião com cacifos/cofres de segurança onde um participante possa guardar os seus bens usando tecnologias digitais para chaves de acesso (via telemovel). O camião (trailer apenas, sem cabine) deverá ter segurança 24 horas. O espaço envolvente deve ter condições para proporcionar wifi de qualidade aos utilizadores, assim como facilidades de refrescos e café (espaço de relax).
ID7. 31 de julho de 2022, EB; II7
Digitalização de manuscritos e fichas da Sociedade de Geografia de Lisboa
A coleção de manuscritos da SGL justifica a sua digitalização urgente. A vasta biblioteca não está disponivel online para consulta. Os testes feitos em visita recente sugerem a viabilidade da iniciativa e o interesse institucional. As plataformas online desenvolvidas até aqui podem ser fácilmente aplicadas neste caso
ID6. 15 de julho de 2022, EB; II6, PJ5 PROJETO EM CURSO
Reorganizar e melhorar o site inovatec.pt
Reorganizar e expandir o site da empresa para ser mais facil a aplicação de técnicas SEO, incluindo landing pages para segmentos especificos de procura. Incluir versão em lingua inglesa das paginas.
ID5. 1 de junho de 2022, EB; II5, PJ4 PROJETO EM CURSO
Digitalização de fichas de coleções de história natural
Muitas coleções de história natural estão catalogadas em fichas manuais (geralmente manuscritas, por vezes datilografadas) cuja digitação se tem mostrado inviável por falta de recursos. A experiência com as fichas bibliográficas do Ateneu Comercial do Porto sugere a sua extensão às fichas de coleções do Museu de História Natural e Ciência da Universidade do Porto e a extensão da plataforma na cloud desenvolvida para as fichas bibliográficas do Ateneu para este tipo de universo.
ID4. 13 de março de 2022, EB; II4, PJ3 PROJETO CONCLUIDO
Palaforma (cloud) para consulta e acesso a jornais diários
Tendo sido criada uma aplicação local capaz de procura e acesso a jornais diários (Diário Popular e Jornal do Comércio, 1883-1893) propõe-se a sua reformulação em termos on-line (na cloud) para acesso através de browser na internet.
ID3. 10 de novembro de 2021, EB; II3, PJ2 PROJETO CONCLUIDO; INSTALAÇÃO EM CURSO
Digitalização de fichas bibliográficas manuscritas
O catálogo da biblioteca do Ateneu Comercial do Porto (mais de 50 mil livros) em fichas manuscritas pode ser um bom teste para o uso dos scanners de nova geração (CZUR para documentos planos e Epson ES para fotografias / fichas). Uma extensão da plataforma cloud desenvolvida para jornais (séc. XIX) poderá ser adaptada para permitir a procura e acesso às fichas bibliográficas sem necessidade da sua digitação manual.
ID2. 11 de março de 2021, EB; II2, PJ1 PROJETO CONCLUIDO
JornaisXIX: Digitalização de jornais diários (século XIX)
Os jornais do século XIX têm problemas de digitalização devido à qualidade e dimensão da impressão. Temos coleções completas de dez anos dois jornais diários (Diário Popular e Jornal do Comércio, 1883-1893) digitalizados pela Biblioteca Nacional (projeto FOZTUA) que podem ser um bom testbed para desenvolver competencias de OCR desses documentos e criar competencias internas nessas tecnologias (ocr, layouting, etc.).
ID1. 1 de dezembro de 2018, EB; II1
memDÃO: Memória da linha do Dão
Ao longo de quase um século as linhas do Dão (entre Santa Comba Dão e Viseu) e a linha do Vouga (entre Espinho e Viseu) foram importantes vias de transporte de passageiros e carga, que ajudaram ao desenvolvimento económico e social da cidade e contribuíram para a atual configuração da região. Muita da experiência humana de região foi influenciada pelas linhas do Dão e do Vouga, sendo importante recolher, preservar e valorizar a memória dessas vivências. Com base na experiência do projeto FOZTUA propõe-se um projeto para produzir materiais sobre a história e património ferroviário da região que valorizem infraestruturas regionais (ecopista do Dão, por exemplo).
VIGILÂNCIA TECNOLÓGICA E ECONÓMICA,
GESTÃO DO CONHECIMENTO
GESTÃO DO CONHECIMENTO
Sistema de alertas
8 de outubro de 2023, EB
Projeto Traprinq (com Transcribus): transcrever os procesos da inquisição portuguesa (1536-1821)
Projeto CLARA-HD (com Transcribus): Diário de Madrid (1788-1825):
8 de Agosto de 2023, EB
AI can identify passwords by sound of keys being pressed, study suggests. Researchers create system using sound recordings that can work out what is being typed with more than 90% accuracy.
12 de junho de 2023, JCA
Novidades de Machine Learning da Apple na WWDC, incluido o seu software com UI, que não necessita de código:
Versão 2 de um produto de geração de vídeo via prompts, dos mesmos investigadores que criaram o Stable Diffusion:
6 de junho de 2023, EB
Vision Pro: Novo headset da Apple para realidade virtual:
15 de maio de 2023, JCA
Um bom guia, extraído da experiência interna de uma empresa, sobre Large Language Models e conselhos sobre ‘prompts’:
11 de maio de 2023, JCA
Uma equipa, que saiu da OpenAI há uns anos, anunciou um modelo que suporta até 100k tokens (cerca de 75k palavras), muito além dos 4k disponíveis actualmente no GPT3 da OpenAI. Talvez seja útil experimentar com jornais inteiros, com as colunas por ordem, assim os textos ficam com o contexto inteiro, ajudando na correcção.
Está aqui uma notícia: https://www.anthropic.com/index/100k-context-windows
Encontram preços neste PDF: https://cdn2.assets-servd.host/anthropic-website/production/images/apr-pricing-tokens.pdf
9 de maio de 2023, AA
Sobre coleções de antropologia colonial
24 de abril de 2023, AA
Sobre a geração de prompts nos modelos AI: "In this blog post, I will make the argument that prompt engineering is a real skill that can be developed based on real experimental methodologies. I will use a realistic example to walk through the process of prompt engineering a solution to a problem that provides practical value to an application."
21 de abril de 2023, EB
Como funcionam os LLM e o GPT: magnifico (mas longo) ensaio de Stephen Wolfram: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work (pdf).
Ver também no The Economist: "Large, creative AI models will transform lives and labour markets": https://www.economist.com/interactive/science-and-technology/2023/04/22/large-creative-ai-models-will-transform-how-we-live-and-work (pdf)
Ligação OpenGPT com Wolfram: "ChatGPT + Wolfram is something very new—really a completely new kind of technology.": https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-wolfram-superpowers (pdf)
Sobre implicações dos LLM e apps generativas, ver o excelente ensaio no The Economist: "How AI could change computing, culture and the course of history", https://www.economist.com/essay/2023/04/20/how-ai-could-change-computing-culture-and-the-course-of-history (pdf) (keep)
14 de abril de 2023, JCA
Anuncio de novo serviço da Amazon: AWS BEDROCK, serviços AI de modelos fundacionais para objetivos especializados
29 de Março de 2023, EB
"What has actually been achieved on this video call? It takes Jared Spataro just a few clicks to find out. Microsoft’s head of productivity software pulls up a sidebar in Teams, a video-conferencing service. There is a 30-second pause while somewhere in one of the firm’s vast data centres an artificial-intelligence (ai) model analyses a recording of the virtual meeting so far. Then an impressively accurate summary of your correspondent’s questions and Mr Spataro’s answers appears. Mr Spataro can barely contain his enthusiasm. “This is not your daddy’s ai,” he beams."
Potencial do GPT para resumir entrevistas e reuniões.
Surpreendente potencial multilingua do GPT
3 de Março de 2023, JCA
Novas API para OpenGPT e Whisper (https://openai.com/blog/introducing-chatgpt-and-whisper-apis)
Customização do modelo GPT para datasets especificos (https://openai.com/blog/customizing-gpt-3) .
Ver ELICIT, The AI research assistant (https://elicit.org)
3 de Março de 2023, JCA
Novas API para OpenGPT e Whisper (https://openai.com/blog/introducing-chatgpt-and-whisper-apis)
Customização do modelo GPT para datasets especificos (https://openai.com/blog/customizing-gpt-3) .
Ver ELICIT, The AI research assistant (https://elicit.org)
2 de Março de 2023, EB
Arquivo Municipal de V N Gaia (https://arquivo.cm-gaia.pt) : "O Comércio do Porto" digitalizado
Empresa de prestação de serviços: gestão de sistemas de arquivos (http://gisa.paradigmaxis.pt)
27 de Janeiro de 2023, AA
Tecnologias OCR. digitalização de jornais
https://ocr-d.de/en (OCR Development, DFG project)
https://www.newseye.eu (NewsEye. A Digital Investigator for Historical Newspapers. EU project)
21 de setembro de 2022, JCA
"Speech recognition", identificação de palavras em ficheiros de audio, exemplos de aplicação Whisper da OpenAI (https://openai.com/research/whisper )
30 de julho de 2022, EB
Reconstrução histórica das notícias sobre “Carrazeda de Ansiães” (um concelho do vale do Tua, o “interior” do interior do norte de Portugal) a partir das ocorrências nos dois periódicos entre 1883 e 1893, parte de uma investigação em curso sobre a história da região nos finais do século XIX (a ortografia dos textos originais foi corrigida com a ajuda do corretor do Google Docs)
20 de julho de 2022, AA
Notas sobre o layout das fichas da Botânica (mhnc):
Tabelas com as características das imagens das 3 gavetas digitalizadas da Botânica (mhnc):
12 de julho de 2022, AA
Notas sobre o layout das fichas da Botânica (mhnc):
Tabelas com as características das imagens das 3 gavetas digitalizadas da Botânica (mhnc):
5 de julho de 2022, AA
Revisão do estado da arte de 2022, dos vários serviços cloud, para extração de informação de fichas:
5 de julho de 2022, EB
Avaliação da correcção de erros pelo corrector ortográfico do google docs:
5 de julho de 2022, AA
Análise de performance dos vários serviços de ocr nas fichas do Ateneu:
20 de junho de 2022, JCA
A framework for designing document processing solutions
11 de fevereiro de 2022, EB
Tutorial: Beginner’s guide to machine learning in R
15 de outubro de 2021, AA
diagramas de fluxo para os processos de geração de txt, ocr e hocr dos jornais
13 de agosto de 2021, EB
análises aos resultados do OCR, para encontrar padrões e erros;
29 de julho de 2021, AA
papers de estratégias de correção de erros de jornais finlandesas
23 de julho de 2021, JCA
desenvolvimentos no conversor Google Cloud Vision para hOCR