大型語言模型開發和應用
在當前快速變化的金融市場中,投資者面臨數據量激增和信息過載的挑戰。傳統分析方法需要花費大量時間和精力處理財務數據。
本專題旨在設計一款基於語言模型的智能投資分析平台,通過人工智慧技術,實現高效解讀財務數據並生成精準投資建議。
專題老師 : 孫培真 教授 專題學生 : 王奕晨、張芮綾、彭子彧
專題亮點
1. 結合獨創的RAG技術,數據精準結合AI
2. 微調模型結合RAG,如虎添翼
3. 皆在本地執行,無額外API負擔與資安風險
4. 從基本面出發,提供專業級的投資參考
核心技術
大型語言模型(LLM)與微調(Fine-tune):
◆ Breeze-7B:
開源LLM,透過LoRA技術微調入股票基本面的知識,用於分析股票基本面資訊。
◆ Llama-3 Taiwan 70B:
開源LLM,透過Llama-cpp同時使用CPU與GPU執行,用於將知識圖譜的生產與最後統合給使用者的資訊。
◆ HanLP:
開源自然語言處理套件,用於抓取句子中的關鍵字。
知識圖譜(Knowledge Graph)&圖譜資料庫(右 圖):
◆ 知識圖譜由「文章標題」、「句子」與「關鍵字」三種節點組成,其中句子節點可以共用不同關鍵字節點。
◆ 使用Llama-3 Taiwan 70B來分解非結構化文章,分解為「最簡句子」,其意義為「一個知識的最小單位」,讓知識圖譜有最底層的基礎。
◆ 使用HanLP來將最簡句子分解出人事時地物的「關鍵字」將上述資料以「文章標題」-「最簡句子」-「關鍵字」的結構儲存入知識圖譜。
檢索增強生成技術 (RAG):
◆ 使用圖譜資料庫提供的財政新聞、公開報表來製作提供給LLM的資訊。
◆ 與一般「向量資料庫」所構成的RAG不同在於「統合」與「精準」。
△ 將各個文檔中相關聯的句子提供給RAG,使多文檔間的關係能夠被LLM統合並提取,實現統合的意義。
△ 其句子-關鍵字的整合結構也能十分有效率的將與使用者最相關的文檔部分提取出來,實現精準的意義。
系統架構
◆ 數據蒐集模組
負責蒐集外部來源的財務數據和公司相關資訊,並將整理後的數據存入MongoDB資料庫,為後續處理提供基礎資料來源。
◆ 圖譜資料處理模組
使用自然語言處理技術(LLAMA-3 TAIWAN)處理非結構化文本數據,提取重要資訊並生成知識圖譜(neo4j)。
◆ 整合模組
使用微調好的模型(如Breeze 7B),將財務指標、知識圖譜和新聞資訊進行綜合分析。
◆ 使用者介面模組
將分析結果以易於理解的方式呈現在前端介面中,方便使用者互動操作。
系統成果
使用語言及工具
未來展望
1. 通過分析股票價格、交易量等歷史數據,使用預訓練機器學習模型預測,提供短期投資決策支持。
2. 基於用戶的風險偏好、財務目標和市場動態,自動生成多元化的投資組合建議。
3. 縮短分析所需要的時間。
4. 將圖譜資料庫的技術擴展運用於各個領域,例如:公司的內部助理、大數量文檔的分析。