C.M.Lin & ChatGPT (2026/3)
在 AI 浪潮下,資料庫似乎面臨新的定義。例如現在經常聽到所謂AI大數據,這個大數據到底是甚麼?在某種情境之下,AI大數據似乎經常代表的是"海量的文件",包括所有的網頁、儲存的文件檔,被AI的程式消化吸收之後應用。這裡的大數據是網頁、文件、甚至影音檔案。這些也有被統稱為「向量資料庫」(Vector Database)。
這種資料庫的概念,和關聯式資料庫(RDBMS)完全不同。以往我們說的大數據分析,經常是在關聯式資料庫裡面找意義,例如最有名的教科書案例:啤酒與尿布,就是從RDBMS所建立的超級市場銷售資料庫當中,許多筆的交易資料裡面找出的商業智慧。
在AI時代,會用到向量資料庫。那麼,RDBMS還有需要嗎?目前的狀況應該是,RDBMS功能更多了,也就是在既有功能下更升級,轉型,而且會和向量資料庫共生。
RDBMS仍是系統開發重點
雖然 AI 處理的是非結構化數據(如文章、圖片、音訊),但任何一個「系統」不只有 AI。一個完整的 AI 應用程式(如 AI 客服或電商推薦系統)仍然需要處理:
帳號權限: 誰能登入?
交易紀錄: 訂單編號、金額、時間。
業務邏輯: 商品庫存、使用者標籤、聯絡資訊。
這些高度結構化、需要 ACID(原子性、一致性、隔離性、持久性)保證的資料,關聯式資料庫依然是目前世界上最可靠的選擇。
根據 2026 年最新的開發趨勢與 DB-Engines 排名:
新開發專案: 大多數開發者在啟動新專案時,首選依然是關聯式資料庫。
混合架構(Hybrid Architecture): 現在流行的做法不是「二選一」,而是「1+1」。系統的傳統資料存放在 PostgreSQL 或 MySQL,而 AI 需要的「向量索引(Embeddings)」則存放在向量資料庫或原資料庫的擴展插件中。
目前AI 與關聯式資料庫的關係,主要技術路徑分為兩條:
RAG 模式(檢索增強生成): 這是目前企業最主流的應用。AI 會先去資料庫撈出「相關知識」,再把知識餵給大模型(LLM)生成回答。
AI 直接查 SQL: 包括 AI Agent(AI 代理人)趨勢,現在許多系統能讓 AI 自動將人類的口語轉成 SQL 指令(Text-to-SQL),直接去關聯式資料庫抓取數據。這讓不懂 SQL 的一般員工也能直接查詢公司資料。
目前(2026)市場上主流的軟體工具如下:
PostgreSQL: 透過 pgvector 插件,它能同時處理傳統 SQL 與 AI 向量檢索。
MySQL:大量網站、CMS、電商系統的基礎,現在也正積極整合向量搜尋功能。
Oracle / SQL Server:針對大型企業(金融、製造業)的複雜運算,提供強大的安全性與 AI 擴充。
SQLite:手機 App、邊緣運算設備的主要選擇,體積小卻極其穩定。
AI 專用:Pinecone / Milvus,純向量資料庫。 專門為了處理超大規模的 AI 資料檢索而生,常與上述 SQL 資料庫並行使用。
-------------------------
很多員工習慣用 Excel 或 Google Sheets,是因為它們很直覺,也是大多數職員工在學校時期學過的軟體,也可說是大多數人擁有的技能。但是試算表軟體的致命缺點是,當資料量變大、需要跨年度(時間維度)或跨類型(關聯維度)時,這種「扁平化」的整理方式會讓辦公室陷入數據災難。
「表格式軟體」在處理複雜資料時,經常遇到不同檔案,不同表格之間資料不一致、重複,或者後來的修改修訂之後,在不同表格之間出現差異的問題,更不用說如果想要跨表格做資料分析,例如,請幫忙分析這十年的學生成績變化。當成績分散在每年不同的檔案當中時,這類型的分析需求會耗掉許多時間,甚至更嚴重會出現操作過程的錯誤導致分析結果錯誤的問題。
在關聯式資料庫的概念中,這被稱為**「資料冗餘」與「維護異常」**。
跨年度斷層: 員工習慣一年開一個分頁(Sheet),想看過去五年的趨勢時,得手動複製貼上或寫極其複雜的 VLOOKUP,出錯率極高。
一對多關係的崩潰: 例如一個客戶(類型 A)有多筆訂單(類型 B)。在 Excel 裡,員工若不是重複輸入客戶資訊,就是把所有東西塞在同一個儲存格,導致最後無法進行統計分析。
缺乏唯一識別碼(Primary Key): 只要有人把「台南分公司」誤打成「臺南分公司」,統計就會出錯。
其實,RDBMS就是在解決這些問題,但是叫行政人員去學 RDBMS太難了。但現在 AI + No-Code/Low-Code(低代碼) 工具正在改變遊戲規則:
A. AI 輔助的資料庫建模 (Natural Language to Schema)
現在的工具(如 Airtable 或 Notion DB)已經可以讓員工用「講話」的方式建立資料庫。
員工口語: 「幫我建立一個可以追蹤客戶購買紀錄的系統,要能分年份統計,且客戶資訊只需要輸入一次。」
AI 回應: 自動生成「客戶表」與「訂單表」,並設定好兩者之間的「關聯」。
B. 語意化查詢 (Text-to-SQL)
這是最關鍵的進展。員工不需要懂 JOIN 或 GROUP BY。
員工詢問: 「幫我比較過去三年,北部地區在第一季的銷售成長率。」
AI 運作: 背後自動寫出跨年度、跨表格的查詢指令,直接從資料庫抓出結果並畫成圖表。
對於缺乏資料庫概念的員工,可能有必要進行教育訓練,須了解「關聯屬性」:須瞭解到「資料只需要在一個地方修改,其他地方會同步」的好處。引入 AI 助手。讓員工發現透過「問問題」就能得到跨年度統計,進而引發他們優化資料結構的動機。
------------------------------
在辦公室環境,我們希望員工能善加利用軟體。但高度使用"高彈性軟體"的情況有另一個問題就是交接或代理困難。Excel就是一種高彈性軟體,讓員工可以自己決定把資料放在哪些欄位?哪些表格?甚至裡面決定使用某些函數或公式,當檔案需要交接,或者需要有代理人協助處理事務時,這些都表格裡面的業務邏輯,都是一道銜接的高牆。
當我們過度依賴 AI 來建立「關聯」或「查詢」時,這道高牆會變得更高,因為AI幫我們建立了邏輯,或者根據我們的邏輯建立了工具,但這過程可能會像是個黑箱。甚至連原先的員工都不見得完全理解所有的過程,更遑論萬一需要交接。辦公室會因此面臨一個核心風險:「黑盒化作業」與「流程斷層」。
如果員工不理解資料庫的邏輯(例如:為什麼 A 表跟 B 表能串在一起),只是下指令讓 AI 產出結果,那麼一旦 AI 出錯,或者系統需要調整時,沒有人能看出問題在哪裡。
以下是初步的建議:
建立「透明化」與「手動化」的鷹架。要避免上述問題,我們不能只讓 AI 「做」,而是要讓 AI 「解釋並建立文件」。可以考慮以下三種策略來強化流程:
A. 「雙語化」作業說明書
要求 AI 在產生任何資料庫結構或查詢時,必須同時產出一份**「人類可讀的邏輯文件」**。
要求 AI: 「請建立一個跨年度預算表,並用簡單的白話文解釋:你是根據哪個欄位把去年的資料連過來的?如果資料重複了你會怎麼處理?」
目的: 讓員工在操作的同時,也被迫理解資料庫的「外鍵(Foreign Key)」與「去重(De-duplication)」概念。
B. 導入「數據治理(Data Governance)」的小規模規範
即使不學 SQL,辦公室也應該建立幾條鐵律(Metadata Rules):
命名規範: 所有表格欄位名稱必須統一(例如:不能在 A 表叫「姓名」,B 表叫「聯絡人」)。
唯一識別碼(ID)的強制性: 任何資料進系統前,必須有一個「身分證」或「編號」,不能只靠姓名。
定期的人工審核點: 在 AI 產出報表後,必須有 5% 的資料抽樣,由人工手動核對。
C. 利用「白盒」工具(Low-Code)
與其讓 AI 在黑盒中寫程式,不如讓 AI 在 Airtable 或 Ragic 這種可視化工具中操作。
可見性: 這些工具會把資料關聯畫成線條或選單。
視覺化檢核: 員工雖然不會寫 code,但看得到「這條線連到了那一張表」,這就是一種直覺的邏輯訓練。
也許不需要每個行政人員都變成資料庫工程師,但需要他們具備基本的「數據素養」:
知道資料在哪裡?(資料來源)
知道資料怎麼連?(關聯邏輯)
知道結果對不對?(預期檢驗)
關聯式資料庫(Relational database)可說是近代資訊系統當中最重要的技術與應用。
不論我們從最廣義的資料庫(database),到資料庫管理系統(database management system, DBMS)來看。都幾乎是關聯式資料庫的天下。即便到現在AI時代了,還是資料世界運作的基石。
具體來說,資料庫就是儲存資料的地方。可能是一個檔案,例如MS Access的mdb檔案就可以視為一個資料庫。資料庫也可能是一堆檔案,例如用XML方式儲存的許多xml檔案。
資料庫管理系統DBMS,就是資料庫+管理的軟體。可以讓我們新增、刪除、修改、查詢資料庫裡面的資料。
DBMS有很多種類型,關聯式資料庫(RDBMS)是其中一種,另外也有OODBMS、ORDBMS等不同類型的資料庫管理系統。其中RDBMS是最常見的。
RDBMS的概念,核心就是許多的資料表,每個資料表就是一個表格,裡面有很多有定義的欄位,例如編號、日期、金額等等,每一列則是一筆紀錄。對於大型資料表而言,幾百萬筆以上的資料是常見的狀況。
表格與表格之間,可能被設計成具有比對的關係。例如表A的學號欄,必須對應表B的學號欄。這些資料表的欄位名稱、儲存資料的需求、以及表格之間的欄位對應的關係,稱為RDBMS的"正規化"(normalization),通常在資料庫系統設計的初期,設計師就必須要先把這些表格名稱、欄位名稱、欄位對應的規則都要設計好。才會開始下一步的開發程式。
而這些程式裡面,都會用一種SQL的指令,來增、刪、修、查資料。這所謂的SQL指令,也變成了業界標準。
自 1980 年代以來,RDBMS 是儲存財務記錄、製造和物流資訊、人事資料以及其他應用資訊的常用資料庫選擇。
2022/11/30,ChatGPT開啟了生成式AI的時代。AI 的背後使用了大量的資料。這些資料可能是網頁、文件、甚至其他媒體。
但是,AI背後的資料不是RDBMS。
RDBMS 管理的資料通常是個資、商業營運機密等,通常是具備授權狀況才會能被審視。而AI 背後的訓練資料,則通常是公開的資料。
當然,也可以用另外一種關係來解讀。就以維基百科網站而言。維基百科網站的背後,也是RDBMS,每個條目的標題、內容、修改歷史紀錄等等,都是儲存在RDBMS裡面。但是維基百科的網站則提供了檢索、修訂等功能,讓使用者可以檢閱條目。
這也提供了AI 系統本身都會具備的"網路爬蟲"程式,也可以把維基百科的內容都收錄進來。
因此可以說,AI 吸收了維基百科的網頁資料,而維基百科的網頁資料是從維基百科的RDBMS而來。
AI 大數據,和RDBMS大數據的概念不同
所以我們經常聽到人們講AI大數據,這是在講AI根據大量資料產生的"下一步(或下一句、或下一個字)"的機率。
但RDBMS的大數據,則經常是在探討資料庫內部的隱藏資訊,例如有名的啤酒與尿布的關聯規則的商業故事。