人工智慧基礎概論
確保人工智慧應用的數據品質、隱私與安全,需要對人工智慧的基礎概念、資料處理流程、隱私安全考量及倫理規範有深入的理解。以下列出100個與「人工智慧基礎概論」相關的關鍵字詞,涵蓋這些核心領域:
•資料預處理在人工智慧(AI)應用中扮演著核心的基礎角色,是確保AI模型能夠有效學習並提供準確、可靠結果的關鍵步驟 [資料預處理 in query]。
人工智慧 (AI):
人工智慧(AI)是一個最廣泛的概念,旨在模擬人類智慧的技術,使機器能夠執行原本需要人類智慧才能完成的任務,如學習、推理、解決問題、感知環境等。
其核心目標是賦予機器學習、適應和智慧行為的能力,以解決複雜問題。
近十年來,AI 的發展突飛猛進,這得益於軟硬體技術進步、計算能力提升、開放資料普及,以及數據的多樣性、品質與規模增長,加上演算法與機器學習的不斷精進。
資料是 AI 的基石與燃料,AI 則是從大量資料中提取價值的關鍵工具;兩者是不可分割的共生關係。
AI 應用領域廣泛,包括金融(風險評估、欺詐檢測、自動交易)、製造業(自動化生產、品質控制、預測性維護)、交通(自動駕駛、交通流量預測)和娛樂(遊戲開發、虛擬現實、內容推薦)等。
AI 可協助達成分析大量複雜數據、辨識影片與圖片內容、處理自然語言、進行語音識別等任務。
然而,AI 仍有其限制,例如無法進行全然的發想創新、在沒有足夠資料的情況下無法提供好的分析結果、無法在所有情況下提供最精準的分析,且部分生成式 AI 可能有幻覺或數字運算錯誤。
機器學習 (ML):
機器學習是實現人工智慧的一種主要方法,它是一種透過數據訓練模型,使機器具備預測與分類能力的技術,而無需依賴人為編寫的規則。
其目標是讓計算機系統從經驗中學習,並在此基礎上執行特定任務。
簡述機器學習的步驟包含:準備訓練資料(蒐集、過濾雜訊、前處理)、訓練模型(輸入演算法、調整參數)、測試及評估模型(測試效能、反覆訓練調校)。
機器學習的三個核心要素是數據(Data)、模型(Model)和損失函數(Loss Function)。
依訓練方式可分為:監督式學習、非監督式學習和強化學習。
深度學習 (DL):
深度學習是機器學習的一個子領域,它透過多層次的人工神經網路,從大量文本、語音、影像等數據中自動學習特徵。
其構建於人工神經網路基礎之上,特別適用於處理非結構化數據,如語音辨識、影像處理與自然語言處理(NLP)等。
相較於傳統的機器學習方法,深度學習不需要人類專家手動設計特徵,而是讓模型自行學習,這使得深度學習在處理複雜數據時具有更強大的能力。
常見的開發框架包括 TensorFlow、PyTorch。
鑑別式 AI (Discriminative AI):
鑑別式 AI 的核心目標是學習數據特徵與目標標記之間的條件概率 P(y|x),主要用於分類與迴歸任務。
它專注於區分不同類別的數據,透過分析數據尋找分類邊界(Boundary Determination),執行如分類、預測等任務。
鑑別式 AI 的輸出通常是分類標籤或數值預測,主要目的是做出準確的決策或分類,而非產生新內容。
應用範圍廣泛,從醫療影像分類到金融風險評估,例如影像辨識、語音辨識、自然語言處理、風險評估等。
典型的鑑別式 AI 模型包括支援向量機(SVM)、邏輯迴歸(Logistic Regression)以及深度學習中的神經網路等。
鑑別式 AI 面臨的挑戰包括數據偏見、過擬合及標記成本。
生成式 AI (Generative AI):
生成式 AI 是一種透過學習數據的聯合分佈 P(x,y) 或邊際分佈 P(x),並能生成具有創新性的新數據樣本的人工智慧方法。
其主要目標是根據龐大的數據集訓練模型,生成多樣且創新的內容,能夠根據輸入條件或隨機變數,產生文本、圖像、音訊、影片等多種形式的內容。
生成式 AI 的訓練過程通常涉及複雜的概率模型和大量計算資源,透過迭代優化的方式逐步生成與真實數據分佈接近的樣本。
其技術進化主要得益於生成對抗網路(GAN)、變分自編碼器(VAE)、流式模型、Transformer 架構與自注意力機制、預訓練與模型微調技術等發展。
應用於內容創作(如 ChatGPT 生成對話、DALL-E 創作藝術圖像)、風格轉換、數據增強、影音合成等。在藝術與設計、醫療與生物科技、產品設計與製造等領域都有廣泛應用。
生成式 AI 面臨的挑戰包括內容真實性、可控性、計算成本、模型準確性、資料隱私與安全性、道德與倫理風險、技術整合與平台適配性。
AI 應用規劃師 (AI Application Planner):
此角色需要掌握人工智慧基礎知識,理解生成式 AI 相關技術的基本概念、實際應用場景及工具操作方法,並具備評估導入生成式 AI 的能力。同時,要懂得如何實際運用並策略性地規劃 AI 的導入。
AI 治理 (AI Governance):
AI 治理指的是針對 AI 的設計、開發、部署和使用,制定政策、法規、標準與規範,旨在最大化效益、最小化風險,確保 AI 可信賴、可解釋、公平與透明。
其重要性在於應對 AI 帶來的隱私、安全、倫理、就業等社會挑戰,確保 AI 的負責任發展。
管理機制包括建立必要的管理制度,明確發生問題時的責任分配,並考慮建立 AI 應用清單 及設立 AI 治理委員會。
資料處理 (Data Processing):
資料處理與分析是人工智慧項目中的基礎階段,其核心在於將原始數據轉化為高品質且適合分析的格式,進一步從中提取有價值的資訊。
此階段包括數據蒐集、清洗、轉換與分析,目標是確保數據的品質、一致性與可用性。
資料處理是 AI 運作的基礎,提供必要的數據支撐。
資料清洗 (Data Cleaning):
資料清洗是提升數據品質的重要步驟,目的是解決數據中的遺缺值、重複值、錯誤值與不一致性問題,確保數據的完整性與可靠性。
這是資料處理流程中確保資料品質的關鍵步驟,也被認為是最耗時的階段之一。
核心內容包括:處理遺缺值、處理異常值、處理不一致性、處理重複資料以及資料驗證。
資料隱私 (Data Privacy):
資料隱私是生成式 AI 應用中需積極應對的多重挑戰之一。
生成式 AI 處理大量資料時,容易暴露用戶隱私或企業機密。模型可能無意中重現訓練數據中的敏感內容,導致洩漏風險。
解決方案包括:採用資料加密、匿名化與權限控管機制,導入差分隱私技術,以及遵循個資法規(如 GDPR、CCPA)。
資料安全 (Data Security):
資料安全是生成式 AI 應用中必須考量的關鍵環節,保護敏感資訊的措施 [資料預處理 in query]。
AI 模型通常需要大量數據進行訓練,若未妥善管理數據與系統存取,可能帶來多種安全風險,例如訓練數據洩漏、反向工程、提示詞攻擊、對抗性攻擊。
防範措施包括:建立多層次防護措施、定期進行資安檢測與弱點掃描、採取嚴格的身份驗證與授權機制。
數據品質 (Data Quality):
數據品質直接影響 AI 模型的學習效果和預測能力 [數據品質 in query]。如果資料品質不佳,可能會導致模型表現差,甚至阻礙服務的推行 [數據品質 in query]。
資料的數量、品質和多樣性對生成式模型效能有決定性的影響。
在評估資料品質時,可參考完整性 (Completeness)、準確性 (Accuracy)、即時性 (Timeliness)、真實性 (Veracity) 等基本四大面向。
倫理 (Ethics):
倫理是 AI 發展中需要解決的關鍵問題之一。
AI 可能被濫用於製造錯誤資訊、假消息或惡意內容。模型訓練數據若存在偏見,將影響決策公正性,導致模型產生帶有歧視性或不公平的結果。
解決方案包括:建立倫理準則與使用規範,導入公平性檢測工具,確保 AI 負責任地應用。應確保訓練數據的多樣性,使用去偏見技術,並對輸出結果進行監控。
AI 系統的決策過程通常是「黑箱」,使用者無法輕易理解模型的推理過程,這削弱了結果的可信度,也增加了企業在倫理層面的壓力。
法規遵循 (Legal Compliance):
AI 應用必須嚴格遵守相關法規,以避免智慧財產權或責任歸屬問題。
在處理個人資料時,應符合資料隱私保護規範,如《一般資料保護規則》(GDPR)和《加州消費者隱私法案》(CCPA),採取資料匿名化或假名化技術,並確保用戶知情與授權。
生成式 AI 所生成的內容可能涉及版權問題,企業需審慎處理,避免侵犯第三方智慧財產權。
針對高風險應用場景,應建立完善的技術標準和合規性審查機制。
預測型 AI (Predictive AI):
此名詞在來源中未直接定義為「預測型 AI」,但「預測性分析」是其核心功能。
預測性分析:使用歷史數據來預測未來可能發生的事件或趨勢,通常是基於統計方法與機器學習模型。
常見模型包括迴歸模型(用於數值型結果預測,如房價預測、銷售額預測)、分類模型(用於將數據分為不同類別,如信用風險評估、疾病診斷)及時間序列模型(用於分析時間相關數據,如銷售預測)。
黑箱性質 (Black Box):
指 AI 系統(特別是基於神經網路的系統,如生成式 AI)的決策過程通常不透明,用戶無法輕易理解模型的推理過程。
這不僅削弱了結果的可信度,也增加了企業在倫理層面的壓力,並且讓將 AI 產出用於決策時,在判別邏輯上會遇到挑戰。
大數據 (Big Data):
指海量數據,是 AI 的基石和燃料。
大數據的爆炸式增長,為 AI 的發展提供了前所未有的機遇。
大數據具有資料量 (Volume)、資料速度 (Velocity)、資料多樣性 (Variety)、資料真實性 (Veracity) 和資料價值 (Value) 等 5V 特性。
資料來源 (Data Sources):
指為 AI 專案提供數據的各種內部或外部管道。
常見的資料來源包括:企業內部系統(如 CRM、ERP、銷售交易資料)、網站與應用程式(如網站日誌、使用者點擊流)、物聯網裝置(IoT Devices)、社交媒體、公開資料庫、問卷調查、網路爬蟲及 API 調用。
原始資料 (Raw Data):
在資料處理與分析階段的起點,指從各種內部或外部來源獲取、尚未經過處理的最初形式的資料。
結構化資料 (Structured Data):
指具有清晰且固定結構的數據,通常以行列形式儲存,便於直接進行查詢與分析。
常見於關聯式資料庫(如 MySQL、PostgreSQL)和規範化的電子表格。
非結構化資料 (Unstructured Data):
指無固定結構的數據,需經過處理和解析後才能進行分析。
通常以檔案形式儲存,適合多媒體或自由文本類型數據,包括圖片、影像、音訊、文字內容(如電子郵件、文章)等。
量化資料 (Quantitative Data):
指以數字形式表示的資料,可以進行數學運算和統計分析,反映事物的「數量」或「大小」。
可分為離散型資料(只能取特定數值,如員工人數)和連續型資料(可以在某一連續範圍內取任何數值,如身高、體重)。
質性資料 (Qualitative Data):
指描述屬性或特徵而非數值的資料類型。在資料來源中,其可劃分為「類別」。
資料量 (Volume):
大數據的 5V 特性之一,指資料的龐大數量。
資料速度 (Velocity):
大數據的 5V 特性之一,指資料生成、傳輸和處理的速度。
資料多樣性 (Variety):
大數據的 5V 特性之一,指資料格式和類型的多樣化,包含結構化、半結構化和非結構化資料。
資料真實性 (Veracity):
大數據的 5V 特性之一,指資料的可靠性和準確性。在資料品質評估中,可信度(Veracity)是評估資料來源是否可信的重要指標。
資料價值 (Value):
大數據的 5V 特性之一,指從資料中提取的潛在價值和洞見。
資料整理與分析流程 (Data Organization and Analysis Process):
這是人工智慧項目中的基礎階段,旨在將原始數據轉化為高品質且適合分析的格式,並從中提取有價值的資訊。
整個流程通常包含以下主要階段:資料收集、資料清理、資料轉換、資料分析,這些階段環環相扣,共同確保資料的價值被最大化。
資料收集 (Data Collection):
資料處理流程的起點,目標是從各種內部或外部來源獲取所有相關的原始資料。
資料的完整性和多樣性直接影響後續分析的品質。
資料轉換 (Data Transformation):
將清理後的資料轉換成適合分析模型使用的格式。
目的是優化資料結構,使其更能發揮潛力。
包含數據格式轉換、數據類型轉換、數據正規化/標準化、數據離散化、數據縮減等。
特徵工程 (Feature Engineering):
從現有資料中創建新的、更有意義的特徵。
這是提升 AI 模型效能的關鍵藝術,例如從日期中提取「星期幾」或「是否為假日」。
資料視覺化 (Data Visualization):
在資料分析階段,用於展示數據分佈情況,突出離群值與中位數等特徵。
資料分析師會透過數據視覺化工具,將複雜的數據轉化為易於理解的報告和圖表。
探索性資料分析 (Exploratory Data Analysis, EDA):
雖然來源未直接使用「EDA」這個詞,但「資料分析」階段中的「描述性分析」與其概念相符。
資料分析:運用各種統計方法、機器學習演算法和分析工具來探索資料、發現模式、驗證假設並提取有價值的洞見。
描述性分析:總結資料的基本特徵,回答「發生了什麼?」。
驗證性資料分析 (Confirmatory Data Analysis, CDA):
此名詞在來源中未直接定義。然而,相關的概念是模型評估與優化。
在機器學習流程中,模型訓練完成後,必須透過評估指標對模型效能進行驗證,並根據結果進一步優化模型。
這包括使用測試數據集進行模型評估,將驗證集資料輸入模型,並依照模型結果計算指標,與預定標準比較。目的是確保模型在實際應用中的創新性與穩定性。
遺缺值處理 (Missing Value Handling):
指處理數據中某些欄位沒有記錄有效數據的情況。
處理策略需根據業務需求選擇適當的策略,例如刪除帶有遺失值的記錄、利用統計方法(平均數、中位數、眾數)填補,或使用更複雜的預測模型進行插補。
重複值處理 (Duplicate Value Handling):
指識別並移除資料集中完全相同或部分重複的記錄,以避免分析偏誤。
錯誤值處理 (Error/Invalid Value Handling):
屬於資料清洗的一部分,旨在確保資料的準確性、完整性和一致性。
這包括資料驗證,檢查資料是否符合預期的範圍、類型和業務約束。
離群值處理 (Outlier Value Handling):
指識別並處理遠離資料集中其他值的資料點。
這些可能是資料輸入錯誤,也可能是真實但極端的資料點,需謹慎判斷和處理。
標準化 (Standardization):
一種資料轉換技術,將數值數據縮放到特定範圍(如 或 -1 至 1)或使其具有標準的常態分佈,以消除不同變數之間的單位影響,使數據在模型中具有可比性,避免某些特徵在模型中佔據過大權重。
適用於訓練前的資料預處理階段。
正規化 (Normalization):
與標準化概念相似,指將資料的數值都調整到一個小範圍內,例如 0 到 1 之間,這樣模型在學習時會更穩定。
適用於訓練前的資料預處理階段。
聚合 (Aggregation):
指將資料彙總到更高層次,例如計算總和、平均值、計數等,以從宏觀角度洞察資料。
離散化 (Discretization):
將連續型數據轉換為離散的區間或類別。
例如將年齡分為「青年」、「中年」、「老年」。
完整性 (Completeness):
資料品質的四大基本面向之一。
指檢查資料集是否涵蓋了 AI 模型所有必要的欄位,了解資料是否有缺漏問題。
準確性 (Accuracy):
資料品質的四大基本面向之一。
指評估資料集中的值,與真實情況是否一致。
在模型評估中,準確率衡量模型預測正確的比例,適用於平衡的分類問題。
以下是根據您提供的來源對這些名詞的解釋:
即時性 (Timeliness)
在資料品質評估中,即時性是指資料是否包含時間數值,並確保具有時效性的資料已更新到分析所需的時間區間。
在生成式 AI 與鑑別式 AI 的整合應用中,即時分析與回饋機制有助於系統根據即時變化的環境條件迅速做出應對決策,例如自動駕駛場景或網路安全防禦。
加密 (Encryption)
在處理敏感資料時,應採用資料加密、匿名化與權限控管機制,以確保資料安全與法規合規。
在 AI 專案的安全設計中,應實施加密、存取控制、沙箱技術等措施。
匿名化 (Anonymization)
處理個人資料時,應採取資料匿名化或假名化技術,確保用戶知情並獲得授權,以遵守隱私法規的要求。
解決資料隱私與安全風險的方法之一是採用資料加密、匿名化與權限控管機制。
權限管理 (Access Control)
解決資料隱私與安全風險的方法之一是採用資料加密、匿名化與權限控管機制。
在 AI 專案的安全設計中,應實施加密、存取控制、沙箱技術等措施。
若企業對於系統的存取控制未設置完善,可能導致敏感資料或模型配置被未經授權的用戶訪問。
差分隱私 (Differential Privacy)
防範生成式 AI 訓練數據洩漏風險的措施之一是導入差分隱私等資料雜訊技術,防止敏感資料外洩。
在預防與設計階段的數據治理中,可實施差分隱私等技術來保護數據隱私。
數位韌性 (Digital Resilience)
數位韌性指的是企業在面對各種衝擊和不確定性時,能夠快速適應、恢復並持續運營的能力。
在 AI 應用涉及的挑戰中,此概念與資料安全議題相關。
惡意攻擊 (Malicious Attacks)
資料安全的主要威脅之一是惡意攻擊,如黑客攻擊、勒索軟體、惡意程式碼等,旨在竊取、破壞或篡改數據。
多層次防護措施旨在防止模型遭受惡意攻擊或生成有害內容。
內部威脅 (Internal Threats)
資料安全的主要威脅之一是內部威脅,包括員工的無意錯誤、惡意行為或缺乏安全意識導致的資料洩漏。
系統漏洞 (System Vulnerabilities)
資料安全的主要威脅之一是系統漏洞,指軟體或硬體中存在的缺陷,可能被利用來入侵系統。
定期進行資安檢測與弱點掃描,以提升平台整體安全性。
物理損害 (Physical Damage)
資料安全的主要威脅之一是物理損害,如設備損壞、自然災害等導致資料丟失。
風險管理 (Risk Management)
風險管理是生成式 AI 導入評估規劃的評鑑主題之一。
生成式 AI 潛力巨大但也伴隨獨特風險,需要全面識別、評估並制定應對策略,以確保其發展與應用是安全、負責任且可持續的。
有效的風險管理旨在透過預防、監測和應對措施,將風險控制在可接受範圍內。
在實務操作中,風險評估通常採用風險矩陣等工具進行定量與定性分析。
倫理偏見 (Ethical Bias)
模型訓練數據若存在偏見,將影響決策公正性,這是生成式 AI 面臨的道德與倫理風險之一。
例如,語言模型在描述職業時可能預設特定性別,或圖像生成模型在膚色與性別分佈上表現出不均衡。
解決方法包括在數據生成過程中引入去偏演算法,強化數據審核機制,並導入公平性檢測工具,確保 AI 負責任地應用。
演算法偏見 (Algorithmic Bias)
在 AI 倫理議題中,演算法偏誤可能導致使用者被誤導而做出錯誤決策。
若訓練數據存在偏見,生成式 AI 模型也會繼承並放大這些偏見,導致其生成帶有歧視性或不公平的內容。
透明度 (Transparency)
AI 系統的決策過程通常被視為「黑箱」,用戶無法輕易理解模型的推理過程,這削弱了結果的可信度,增加了企業在倫理層面的壓力。
應加強模型透明度,推進可解釋性技術的研究,並在應用中採取積極的監管措施。
在 AI 倫理準則中,機關需要高度掌握 AI 系統運作過程、決策機制、資料使用狀況,以及上述行為對於使用者和社會之影響,確保透明度。
可解釋性 (Interpretability/Explainability)
AI 系統的決策過程通常被視為「黑箱」,影響用戶信任和監管,需要推進可解釋性技術的研究。
在 AI 倫理準則中,機關應確保 AI 系統具有可解釋性,讓使用者對所使用 AI 服務有基本了解。
風險溯源時,需採用可解釋性 AI 技術,確保生成內容的來源和過程可追溯。
責任歸屬 (Accountability)
當生成結果出現虛假或有害內容時,責任應由數據提供方、模型開發者還是最終使用者承擔,往往成為模糊不清的問題。
應制定並遵循內部 AI 倫理準則,指導模型的開發和部署,確保公平性、透明度和問責制。
機關應可對 AI 系統影響負責,從制定完整 AI 專案生命週期明確規範對應責任義務,在 AI 系統發生錯誤時能找尋對應負責人。
公平性 (Fairness)
資料品質評估的標準之一是公平性。
AI 模型的公平性指標用於衡量和評估模型在不同群體之間是否公正、平等地做出預測和決策,以確保 AI 系統不會因敏感特徵產生偏見或歧視。
常見的公平性指標如「均等機會差距」,用於比較不同群體真陽性的機率是否相同。
在 AI 倫理準則中,應確保 AI 系統在不同群體之間具有公平性。
智慧財產權 (Intellectual Property Rights)
生成式 AI 的應用可能引發侵犯智慧財產權的問題。
版權侵權 (Copyright Infringement)
生成式 AI 工具應包含版權管理與內容過濾機制,避免違規與濫用。
惡意內容生成 (Malicious Content Generation)
生成式 AI 可能被濫用於製造錯誤資訊、假消息或惡意內容。
建立多層次防護措施,防止模型遭惡意攻擊或生成有害內容。
AI 幻覺 (AI Hallucinations)
幻覺指的是生成式 AI 模型產生看似真實,但其實不正確或誤導性的結果。
導致錯誤的原因包括訓練資料不足、模型存在錯誤的假設或用於訓練模型的資料有偏差。
檢索增強生成 (RAG) 是解決幻覺問題的一種方案,透過結合資訊檢索和文本生成的技術,利用外部知識庫提高回答準確性。
審核機制 (Audit Mechanisms)
應建立多層次驗證機制,結合自動化檢測與人工審核,確保生成內容的準確性與一致性。
在 AI 治理中,可設計組織內的 AI 審核機制,並考慮第三方審核機構和資料科學專家的參與。
應急響應計畫 (Emergency Response Plan)
此名詞在提供的資料中未直接提及。然而,相關的概念如「建立常態化的回饋機制與績效數據分析流程」和「動態學習框架能確保系統根據數據分佈的變化即時進行調整和優化」、以及「風險管理」 等,都間接指向在 AI 系統運作中處理異常和快速應變的能力。
可追溯來源 (Traceability)
生成式 AI 的風險溯源指對數據來源進行詳細審核,確保其合法性與可靠性。
對於模型生成過程的透明化,需採用可解釋性 AI 技術,確保生成內容的來源和過程可追溯。
監督式學習 (Supervised Learning)
機器學習的三大主要類型之一。
機制:模型從帶有標籤的數據(即同時包含輸入和正確輸出結果的數據)中學習。學習目標是建立一個模型,能夠從輸入數據預測出正確的輸出標籤。
應用:常見於分類問題(預測離散類別,如垃圾郵件過濾、影像識別)和迴歸問題(預測連續數值,如房價預測、銷售額預測)。
非監督式學習 (Unsupervised Learning)
機器學習的三大主要類型之一。
機制:無需使用事先標記好的訓練數據。演算法會自動從未標記的數據中發掘潛在的模式、結構或分群 (Clustering),進而揭示數據內部的關聯性和特徵。
應用:常用於資料探索、特徵提取和數據降維等任務,廣泛應用於市場區隔分析、異常偵測、推薦系統和影像壓縮等領域。
強化學習 (Reinforcement Learning)
機器學習的三大主要類型之一。
機制:是一種基於「回饋(反饋)機制」的學習方法,透過評分機制與獎勵措施的制定,讓人工智慧進行自我評估並朝獲取最大獎勵的方向進行學習。核心在於讓代理(Agent)透過與環境的互動,學習如何選擇最佳行動策略,以獲得最大的累積回報。
應用:特別適合用於需要「試錯學習(Trial-and-Error)」和「長期規劃」的任務,例如遊戲 AI、機器人控制和自動駕駛等領域。AlphaGo 是強化學習結合深度學習的應用範例。
過擬合 (Overfitting)
在訓練時,如果數據不夠多樣或泛化能力不足,模型可能僅適用於特定場景,導致過擬合。
在模型訓練階段,為防止過擬合或欠擬合,可以採用正則化技術(如 L2 正則化與 Dropout)以及早停策略(Early Stopping)來穩定訓練過程。
表現:訓練集準確率高,但驗證集準確率低。
解決方法包括使用交叉驗證、正規化技術、增加數據量、特徵選擇、降維、提前停止訓練等。
線性迴歸 (Linear Regression)
是一種演算法,用於解決問題和提供決策支援。
是一種監督式學習模型,用於預測連續數值,例如房價預測、身高預測。
其比喻說明是「依照數字畫一條線,預測趨勢」。
神經網路 (Neural Network)
深度學習構建於人工神經網路基礎之上。
是生成式 AI 發展的重要基礎之一。
人工神經網路由許多相互連結的神經元組成。
鑑別式 AI 模型中包含深度學習中的神經網路。
生成對抗網路 (Generative Adversarial Network, GAN)
是深度學習中用於生成數據的強大模型。
由兩個網路組成:生成器(Generator)和判別器(Discriminator),透過對抗學習共同進步。
工作原理:生成器接收隨機雜訊生成數據,判別器區分數據真假。生成器目標是「欺騙」判別器,判別器則試圖最大化其判斷準確性。
優點:能夠生成高品質的數據樣本,適用於影像、文本、語音等多領域。
缺點:訓練過程不穩定,可能出現模式崩潰;需要大量計算資源。
應用場景:圖像生成(如草圖轉寫實圖片)、文本生成(虛擬對話內容創建)、語音合成(生成逼真語音樣本)、圖像修復、風格遷移。
大型語言模型 (Large Language Model, LLM)
是生成式 AI 的一種工具。
通常需要使用大規模的文本語料庫進行預訓練。
ChatGPT 和 DALL-E 是生成式 AI 的範例,而 ChatGPT 是基於此技術的模型。
TAIDE (Taiwan AI Dialogue Engine) 是台灣在地開發的大型語言模型。
擴散模型 (Diffusion Models)
生成式 AI 的模型類型之一。
在技術進化中,Diffusion Models 的改良提升了生成速度與品質。
提示詞 (Prompt)
生成型 AI 可根據使用者輸入的提示詞(prompt),生成各類素材,包括文字、語音、圖像和影片。
生成式 AI 的使用者會持續並反覆地針對輸入提示進行調整,直到任務解決為止。
提示工程 (Prompt Engineering)
是一種基於啟發式方法的技術,用於引導生成式 AI 模型。
是與生成式 AI 模型互動的關鍵,透過精心設計的輸入指令(Prompt),引導模型生成更精準、更符合預期的內容。
能提升模型的適應性與精準度。
挑戰包括提示洩漏 (Prompt Leakage) 和 提示注入攻擊 (Prompt Injection)。
多模態處理 (Multi-modal Processing)
生成式 AI 具備多模態處理支持,例如 GPT 系列模型支持大規模的多模態生成,將文本與圖像生成結合 (如 DALL-E 和 Stable Diffusion)。
OpenAI 的 CLIP 是一種多模態模型,能將圖片與文字映射到同一嵌入空間,實現跨模態的理解與檢索。
檢索增強生成 (Retrieval-Augmented Generation, RAG)
結合檢索與生成技術,讓生成式 AI 模型在生成答案前,先從外部知識庫中檢索相關資訊,從而提高回答的準確性和可靠性。
是解決 AI 幻覺的一種方案。
優點:可使用口語化文字查詢資料庫,生成更準確回應;相較重新訓練模型更省時且低成本;提供更透明和解釋性的生成過程。
適用時機:需要精確事實或特定領域知識的問答系統。
速度:RAG 通常比微調(Fine-tuning)更快,因為它無需重新訓練模型,只需建構檢索資料庫。
微調 (Fine-tuning)
生成式 AI 模型訓練過程的第二階段,在模型預訓練後進行微調。
通過模型微調與提示工程,讓用戶能根據特定需求調整生成結果。
速度:微調通常比 RAG 慢,因為它需要重新訓練模型。
No Code (無程式碼)
一種透過視覺化介面和拖放操作,讓使用者無需編寫程式碼即可快速開發應用的平台。
特別適合非技術背景者用於快速原型設計或小型應用開發。
是推動 AI 民主化的重要力量,簡化開發流程。
核心理念:透過圖形使用者介面 (GUI),開發者透過圖形元素而非程式碼來設計應用流程;提供大量預先建立好的功能模組與模板;直觀的邏輯配置。
Low Code (低程式碼)
結合視覺化開發工具與程式碼擴充功能,讓具有技術背景的開發者能在視覺化設計的基礎上,透過少量程式碼實現深度整合、客製化與複雜邏輯的平台。
特別適合中大型企業,以及需要高彈性功能的應用開發。
旨在平衡開發速度與客製化需求。
AI 導入 (AI Adoption/Implementation)
企業在導入生成式 AI 時,需進行多面向的評估與規劃,確保技術與業務需求緊密結合,發揮 AI 的最大效益。
成功的導入依賴企業內部資源的整合與技術基礎建設的完善。
政府機關推動 AI 應用的初期痛點包括 AI 知識不足、可參考案例分散及缺乏實作導向指引。
生命週期流程分為五大階段:AI 場景評估、AI 專案啟動、資料探索與模型建立、模型迭代與部署、風險控制和專案追蹤。
應用場景 (Application Scenarios)
AI 在企業運營中的應用通常集中於提高效率、增強決策能力、提供個人化服務以及促進創新.
AI 技術的多樣化應用正在迅速改變各行各業的運作模式,影響深遠且範圍廣泛.
主要領域包括醫療保健、金融、製造業、交通和娛樂.
生成式 AI 的應用包括藝術與設計/內容創作、醫療與生物科技、製造業和金融業.
需求評估 (Needs Assessment)
企業導入生成式 AI,首先需明確自身需求與業務痛點,深入分析現有營運模式與挑戰,以利設計具體可行的應用策略.
在 AI 導入的第一階段「AI 場景評估」中,核心任務是「明確專案目標和需求」.
應從具體工作痛點出發,將痛點轉化為具體可量化的問題.
資源評估 (Resource Assessment)
成功導入生成式 AI,依賴企業內部資源的整合與技術基礎建設的完善.
包括技術人才、數據品質與基礎、硬體與系統架構的評估.
在 AI 導入規劃中,需要檢視企業資源,包括預算、專案管理架構和技術資源配置.
基礎設施 (Infrastructure)
成功導入生成式 AI 依賴企業內部資源整合與技術基礎設施的完善.
在 AI 專案啟動階段,確保基礎設施和資源準備就緒是關鍵.
在技術層面,AI 的運作需要必要的計算能力和數據支撐.
試點應用 (Pilot Application)
在 AI 導入過程中,建議機關優先進行小規模概念驗證 (POC),確認 AI 應用可達到預期效果.
企業可透過小規模實驗測試,評估模型效能,檢視 AI 在真實業務環境中的預測準確度、效率及與現有作業模式的融合度.
AI 專案試辦規劃能有效測試 AI 專案帶來的幫助和可改進之處.
專案管理 (Project Management)
生成式 AI 導入規劃涉及專案管理的範疇.
AI 專案負責人需要與專案的利害關係人進行深度溝通,讓專案的關係人對 AI 工具的預期效能有一致的理解.
AI 專案多採敏捷開發的形式,透過較短的開發循環,不斷迭代,快速應對變化多端的情境.
傳統的資訊專案管理可能不適合使用於 AI 專案.
模型部署 (Model Deployment)
在 AI 專案的第三階段是「AI 模型部署與監控」.
將訓練好的模型部署到生產環境中,需確保部署環境與訓練環境相容,並將模型導出、轉換為適合部署環境的格式,再部署到預定伺服器或雲端平台並設置 API 介面.
模型監控 (Model Monitoring)
AI 模型投入運用後,除了需要持續監控其表現,確保模型效能良好,也需要依據任務需求,定期優化模型的能力.
建立完善的監控與重新訓練機制對確保生成式 AI 模型在動態業務環境中保持最佳效能至關重要.
監控指標包括生成準確度、語義連貫性與生成多樣性.
效能優化 (Performance Optimization)
在模型訓練過程中,需要對模型效能指標進行持續監控.
透過模型剪枝與量化,可優化推理速度並降低運算成本.
生成式 AI 工具持續追求高效能與資源最佳化,例如高效 Transformer 架構與 Diffusion Models 改良,提升生成速度與品質.
統計學 (Statistics)
資料分析階段運用各種統計方法、機器學習演算法和分析工具來探索資料、發現模式、驗證假設並提取有價值的洞見.
迴歸分析、平均數、中位數、眾數、皮爾森相關係數等都屬於統計學範疇.
R 程式語言為預測分析和統計而開發,能進行資料前處理與統計分析.
中央趨勢 (Central Tendency)
來源中未直接定義此術語,但描述性分析的內容涵蓋了中央趨勢相關的概念,例如計算平均值、中位數、頻率分佈、標準差等,以了解數據的整體樣貌。
平均數 (Mean)
在資料清理中,處理遺失值可利用平均數填補。
描述性分析中,可以計算平均值來總結資料的基本特徵。
均方誤差 (Mean Square Error) 衡量模型預測結果與實際數據之間平均誤差大小的數字。
絕對平均誤差 (Mean Absolute Error) 衡量模型預測結果與實際數據之間平均誤差大小的數字。
中位數 (Median)
資料處理中,盒鬚圖能展示數據分佈情況,突出中位數等特徵。
在資料清理中,處理遺失值可利用中位數填補。
描述性分析中,可以計算中位數來總結資料的基本特徵。
眾數 (Mode)
在資料清理中,處理遺失值可利用眾數填補。
描述性分析中,可以計算眾數來總結資料的基本特徵。
核心概念與定義
人工智慧 (AI):模仿人類智慧的技術。
生成式AI (Generative AI, GAI):AI的一個分支,專注於生成新內容。
鑑別式AI (Discriminative AI, DAI):專注於數據分類與預測。
AI民主化:降低AI技術門檻,讓更多人參與。
模型 (Model):簡化並模擬真實世界的工具,用於預測或決策。
提示詞 (Prompt):使用者輸入,引導生成式AI生成內容。
深度學習 (Deep Learning):機器學習子集,使用多層神經網路。
機器學習 (Machine Learning, ML):AI主要方法,允許系統從數據中學習。
神經網路 (Neural Networks):生成式AI的基石。
機器學習類型
監督式學習 (Supervised Learning):需標籤化數據訓練。
非監督式學習 (Unsupervised Learning):處理無標籤數據,推斷結構。
半監督式學習 (Semi-supervised Learning):結合標記與未標記數據。
強化學習 (Reinforcement Learning):透過獎勵懲罰學習最佳行為。
生成式AI技術與工具
生成對抗網路 (GAN):生成逼真圖像和數據。
變分自編碼器 (VAE):生成新數據樣本。
擴散模型 (Diffusion Models):用於圖像生成。
Transformer架構:生成式AI的常用模型架構。
大型語言模型 (LLM):例如ChatGPT、TAIDE。
No Code平台:無需撰寫程式碼,透過視覺化介面開發。
Low Code平台:允許少量程式碼客製化。
OpenAI API:透過API介接AI服務。
Hugging Face:提供開源AI資源平台。
Suno AI:生成音樂的AI平台。
NotebookLM:生成重點摘要與模擬對話式知識整理。
模型微調 (Fine-tuning):根據特定需求調整模型。
提示工程 (Prompt Engineering):優化提示詞以獲得期望結果。
模型壓縮 (Model Compression):降低硬體資源需求。
量化 (Quantization):提升模型效率。
推理加速 (Inference Acceleration):加快模型預測速度。
AI浮水印:標示AI生成內容。
檢索增強生成 (RAG):結合外部知識庫提高準確性,解決AI幻覺。
AI應用領域 (跨產業)
醫療保健:疾病診斷、藥物研發、個人化醫療。
金融:風險評估、欺詐檢測、自動交易、投資組合優化、自動化合規監管。
製造業:自動化生產、品質控制、預測性維護、產品設計與原型製作。
交通:自動駕駛、交通流量預測。
娛樂:遊戲開發、虛擬現實、內容推薦、數位藝術與插畫、音樂創作。
零售業:個人化行銷、庫存與供應鏈管理、顧客體驗優化。
教育領域:自動化教材生成、個人化學習路徑、智慧評量與回饋。
客戶服務:虛擬智慧客服、自動化回應生成、客訴分析。
法律領域:法律文件自動化撰寫與審閱、風險評估與法規檢索。
產品設計:創新產品設計、快速原型製作、模擬與測試。
AI應用規劃流程
需求與現狀評估:識別業務痛點、應用場景分析、技術對接性。
資源與基礎設施評估:技術人才、數據品質、硬體與系統架構、系統可擴展性。
分階段策略:試點應用、階段性擴展、長期目標設定。
員工技能與文化導入:技術培訓、實務操作、數位轉型文化。
風險評估與管理:資料安全、倫理與法規遵循、技術風險。
概念驗證 (POC):小規模實驗驗證可行性。
投資回報率 (ROI):評估財務可行性與效益。
數據處理:數據清洗、數據標準化、特徵選擇、降維。
模型訓練與迭代:演算法選擇、模型評估與優化。
模型部署與監控:持續監測模型性能、定期更新。
挑戰與風險管理
AI幻覺 (Hallucination):模型產生錯誤或誤導性內容。
數據偏見 (Data Bias):訓練數據導致模型歧視。
過擬合 (Overfitting):模型過度學習訓練數據。
內容真實性:生成內容的準確性問題。
可控性:模型輸出內容的控制難度。
計算成本:生成式AI對計算資源的高需求。
資料安全與隱私:敏感資訊洩露風險。
倫理議題:演算法公平性、透明度、責任歸屬。
法律合規:資料保護法規(GDPR、CCPA)、智慧財產權。
提示注入威脅 (Prompt Injection Threats):操縱模型行為。
數據漂移 (Data Drift):模型效能隨數據變化下降。
風險溯源:追溯數據來源和生成過程。
風險緩解 (Risk Mitigation):降低風險措施。
風險轉移 (Risk Transfer):將風險責任轉移給第三方。
風險迴避 (Risk Avoidance):暫緩高風險應用。
關鍵職能與團隊
AI應用規劃師:規劃與推動AI技術導入的專業人才。
提示工程師 (Prompt Engineer):專注於設計優化提示詞。
AI訓練師 (AI Trainer):訓練和調優AI模型。
專案經理:負責AI專案的進度監控與風險管理。
資料科學家:分析資料、建立解讀AI模型。
機器學習工程師:開發、部署AI模型。
資料工程師:負責數據架構、收集與處理。
商業智慧分析師:建構BI解決方案,監控關鍵業務指標。
測試工程師:確保系統功能性與可靠性。
領域專家:提供專業知識,確保AI符合業務需求。