(2026/02/28)
(以下資料利用NotebookLM製作)
請有系統的教我要如何利用AI在國中小出題,並設計一些實用的範例
在國中小教育現場,利用 AI 輔助出題不僅能大幅減輕教師的備課負擔,還能產出具備情境與深度的素養導向試題。要有一套系統化的出題流程,建議您掌握「確立規範、精準提示、學科範例應用、數位工具整合、審題優化」五大步驟。
以下為您系統性地拆解教學與實用範例:
在使用 AI 出題前,必須建立「Human-in-the-loop(HITL 人在迴圈中)」(也常被稱為「人機協作」模式)的觀念。
教師是舵手,AI 是加速器: AI 可以無中生有,但教師必須掌握教學目標與方向,AI 生成的題目不能直接使用,必須經過教師專業的審核與修改。
遵循教育部規範: 確保輸入 AI 的資料不包含學生隱私,並且教導學生辨識 AI 內容的正確性,增加題目的思辨性,讓學生無法單純依賴 AI 找答案。
要讓 AI 產出精準的考題,請套用「進階三層提示語結構」加上「教育理論限制」:
目的優先(設定角色與任務): 賦予 AI 明確身分(如:國小自然老師),並指派任務(如:出 5 題選擇題)。
輸入資料(提供範圍或範本): 直接餵給 AI 課本重點、文章文本,或是提供 3-5 題優良試題作為模仿範本(Few-shot Prompting)。
設定輸出(格式與測驗理論條件):
融入測驗層次: 要求題目符合「布魯姆分類法(Bloom's Taxonomy)」的不同層次(如:記憶、理解、應用、分析),或閱讀理解的「PIRLS 四層次」。
出題限制(Checklist): 規範題幹必須為正向表述(避免「下列何者『非』」)、選項長度必須一致、不可出現「以上皆是」等無效選項。
指定格式: 要求以 Markdown 表格或 CSV 格式輸出,方便後續轉檔。
💡 範例一:國語文閱讀測驗(結合 PIRLS 四層次)
傳統閱讀測驗常流於表面記憶,您可以利用 AI 快速產出具備深度的推論題。
【提示詞模板】 **(角色與任務)**你是一位專業的國小中年級國語老師,請根據下方提供的課文,出 4 題單選題。 **(輸出限制)**題目必須涵蓋 PIRLS 閱讀理解的四個層次:1. 提取關鍵訊息、2. 跨段落推論、3. 全文歸納的詮釋整合、4. 比較評估。每題需有四個長度相近的選項 (A, B, C, D),且只有一個正解。 **(格式要求)**請用表格呈現,欄位包含:題目、選項A~D、正確答案、對應的 PIRLS 素養層次。 **(輸入資料)**文章內容:[貼上課文或閱讀文本]
💡 範例二:數學科素養導向命題(結合情境與思維鏈)
數學題若只考計算,缺乏素養精神。可要求 AI 將數學概念包裝進生活情境中。
【提示詞模板】 **(角色與任務)**你是一位資深的國小四年級數學老師,請根據下方教材重點,設計 3 題「素養導向」單選題。 **(輸入資料)**教材內容:認識三角形的構成要素、以邊與角分類三角形(正三角形、等腰、直角、銳角、鈍角)。 **(輸出限制)**1. 題目必須具備真實生活情境(例如:校園觀察、積木組合)。2. 避免使用「下列何者不是」的反向表述。3. 請運用「一步一步分析」的邏輯,在每題下方提供詳細的【解題邏輯 Rationale】,解釋為何正確選項是對的,以及干擾選項為何錯誤。
💡 範例三:社會/綜合領域(運用多角度思考法)
引導學生進行批判性思考。
【提示詞模板】 **(角色與任務)**請針對「設立科學園區對環境與經濟的影響」這個主題設計 2 道探究型問答題。 **(輸出限制)**請確保問題能引導小學高年級學生運用「多角度思考」,例如:從政府代表、環保團體、當地居民三種不同立場來思辨利弊。
除了使用 ChatGPT,您也可以直接運用以下專為教育打造的 AI 工具:
酷英平臺(Cool English)的 AI 試題工具: 適合英語科。教師只要輸入關鍵字與設定情境、難易度,系統就能自動生成英語文章,並產出單字題、是非題、閱讀測驗,還能匯出試卷供學生作答。
ClassSwift 測驗生成器: 老師在課堂上直接用截圖工具擷取電子書或網路文章畫面,AI 就會依據畫面內容自動生成選擇題(系統還會標示該題屬於布魯姆分類的哪一個認知層次),並可立即派送給學生的平板進行即時測驗。
Revisely / Google NotebookLM: 將教材 PDF 檔上傳,AI 會自動拆解出有問有答的「記憶閃卡」題庫或選擇題,NotebookLM 還能自動標記答案在原始文件中的出處,方便查核。
翰林/康軒 AI 命題系統: 許多書商已內建 AI 素養題庫,可直接選擇單元並一鍵生成結合時事的選擇題與「素養問答題」。
AI 生成題目後,務必進行最後的把關與應用:
檢視與精緻化「誘答力」: AI 有時生成的錯誤選項(干擾項)太明顯或太荒謬。教師應手動修改選項,讓四個選項具備同質性與合理的誘答力,提升題目的鑑別度。
要求 AI 自我迭代: 若題目品質不佳,可對 AI 下達:「請設定世界一流的試題評分標準,自行檢視你出的題目,修改到滿分 10 分後再輸出給我。」
一鍵轉化為遊戲化測驗: 將 AI 產出的表格(Excel 格式)複製,直接貼上至 Wordwall、Kahoot 或 Quizizz 等遊戲化平臺,就能在 1 分鐘內將枯燥的文字測驗轉變為課堂上讓學生搶答的數位互動遊戲。
有哪些 AI 提示詞技巧可以讓生成的試題達到「世界一流」品質?
要讓 AI 生成的試題達到「世界一流」的高品質,您可以結合**「AI 自我迭代」的高階技巧,以及專業測驗領域的「結構化提示詞(Prompt Engineering)」**。綜合來源資料,以下是能大幅提升試題品質的提示詞技巧:
一、 運用「自我迭代」咒語,定義並要求世界級標準 這是一個能讓 AI 答案品質飆升的高級技巧。不要只要求 AI 出題,而是請它先定義標準,再自己打分數並反覆修改。
具體提示詞範例: 「在回覆之前,請先制定一份內部評分標準,定義『世界一流』的試題答案。然後,在內部反覆修改完善,直到你的題目完全符合評分標準(10/10),最後只向我展示最終的完美版本。」
二、 啟動「深入思考」與「思維鏈(Chain-of-Thought)」 在處理複雜的邏輯題或素養情境題時,要求 AI 展示推論過程,能有效提高干擾選項的合理性與邏輯一致性。
啟動深度思考: 在提示詞中加入「對此深入思考」、「對此深度思考」或「請一步一步分析並回答」。
推論過程隱藏: 要求 AI 在生成題目時寫出「解題邏輯(Rationale)」,解釋為何正確答案是對的,以及為何其他選項是合理但錯誤的干擾項,但指明這個推論過程僅供教師審查,不顯示給學生看。
三、 提供優質範本(Few-shot Prompting) 不要讓 AI 憑空想像(Zero-shot),這往往會導致選項格式不一或誘答力不足。
作法: 在提示詞中先餵給 AI 3 到 5 題經過驗證的「優良試題範本」。
效益: 這能讓 AI 準確抓到您期望的題目長度、語氣、情境描述方式(如:先描述病人/情境特徵,再給數據),並讓干擾選項的設計更具真實性。
四、 採用「多階段拆解(Multi-stage)」生成法 將出題任務拆解成多個步驟,避免 AI 一次產出而產生邏輯漏洞或在題幹中洩漏答案。
步驟拆解: 要求 AI 依序生成:1. 確認測驗主題與課綱對齊 $\rightarrow$ 2. 撰寫真實情境(題幹,不含選項) $\rightarrow$ 3. 設計具體的主幹問題 $\rightarrow$ 4. 設計 1 個正確解答與多個具同質性的干擾選項 $\rightarrow$ 5. 進行自我審查(Self-critique)。
五、 制定嚴格的「審查清單」與「結構化輸出(JSON/Markdown)」 將測驗編製的專業原則納入提示詞中,強制 AI 自我檢核,並用結構化的方式輸出。
設定出題限制清單: 在提示詞中明確規範「題幹必須正向表述(禁止使用『下列何者非』)」、「選項長度必須由短到長排列」、「禁止使用『以上皆是/非』」、「選項間必須互斥」等原則,並要求 AI 產出後自行打勾確認。
結構化輸出: 指示 AI 使用 JSON 或 Markdown 表格格式輸出(例如設定欄位:對應課綱、題幹情境、主問題、選項 A~D、正確答案、測驗認知層次),這樣能大幅提升內容的精確度與一致性,也方便後續匯入測驗平臺。
💡 綜合實戰提示詞框架範例:
「你是一位資深的學科測驗專家。請根據我提供的教材內容,設計 3 題素養導向選擇題。 【步驟與要求】
請參考以下範本的風格出題(貼上優良範本)。
請確保題幹為正向表述,且 4 個選項長度相近,不得出現『以上皆是』。
請一步一步分析並運用思維鏈推論干擾選項的合理性。
請用 Markdown 表格輸出,包含:題目、選項、正解、布魯姆認知層次、解題邏輯。 【世界級標準檢核】 在回覆前,請先制定一份內部評分標準,定義『世界一流』的素養題。然後在內部反覆修改,確保符合上述所有出題限制,直到獲得 10/10 分,最後只向我展示最終完美版本的表格。」
這是一個非常實用且專業的出題需求!根據您提供的「目的優先、輸入資料、設定輸出」三層提示語結構,以及必須遵循的測驗理論與格式限制(如正向表述、選項長度一致、無「以上皆是」),我為您模擬了國語、數學、自然、社會四個科目的 AI 命題過程,並產出各 2 題的實際範例。
以下為四個學科的**「提示詞設計」與「生成的 Markdown 題庫結果」**:
【提示詞設計】
目的優先: 你是一位專業的國小中年級國語老師,請根據下方提供的短文,出 2 題單選題。
輸入資料: 「小明的秘密基地是鎮上的圖書館。圖書館長李伯伯總會推薦好書給他。有一天,李伯伯給了小明一本關於宇宙的書,小明讀完後,決定長大要當太空人。李伯伯笑著說:『書本是通往星空的階梯。』」
設定輸出:
融入測驗層次:需涵蓋 PIRLS 的「提取關鍵訊息」與「詮釋整合」。
出題限制:題幹必須為正向表述,4 個選項長度必須完全一致(各 6 個字),且不得出現「以上皆是」。
指定格式:請以 Markdown 表格輸出,包含:題目、選項 A~D、正確答案、對應層次。
【AI 輸出結果】
題目
選項 A
選項 B
選項 C
選項 D
正確答案
PIRLS 層次
小明讀完關於宇宙的書後,決定長大後要做什麼職業?
學校的老師
圖書館館長
勇敢太空人
偉大科學家
C
提取關鍵訊息
李伯伯說「書本是通往星空的階梯」,這句話的意思是什麼?
書本能幫助實現夢想
書本疊起來能爬很高
書本裡面有星星圖片
書本只能在晚上閱讀
A
詮釋整合
【提示詞設計】
目的優先: 你是一位資深的國小四年級數學老師,請根據下方教材重點設計 2 題素養導向選擇題。
輸入資料: 教材重點為「以邊與角分類三角形」,包含正三角形、等腰三角形、直角三角形、銳角三角形、鈍角三角形的概念。
設定輸出:
融入測驗層次:需涵蓋 Bloom 分類法的「理解」與「應用」層次。
出題限制:必須結合真實生活情境(如勞作、積木組合),題幹採正向表述,選項長度一致(各 5 個字),無無效選項,並在表格中提供解題邏輯。
指定格式:Markdown 表格輸出。
【AI 輸出結果】
題目
選項 A
選項 B
選項 C
選項 D
正確答案
Bloom 層次
解題邏輯 (Rationale)
小華在勞作課時,剪下一個三個角都是銳角的三角形紙板。這個三角形稱為什麼?
銳角三角形
直角三角形
鈍角三角形
等腰三角形
A
理解
根據定義,三個內角皆為銳角的三角形即為銳角三角形。其他選項的角特徵不符。
小明用三根長度完全一樣的吸管,連接拼成一個封閉的三角形。這個三角形稱為什麼?
直角三角形
鈍角三角形
等腰三角形
正三角形
D
應用
三根吸管長度一樣,代表三角形的三個邊等長,符合「正三角形」的定義。
(註:為了符合選項長度一致的限制,數學專有名詞皆調整為 5 個字。)
【提示詞設計】
目的優先: 你是一位國小中年級自然老師,請出 2 題關於昆蟲的單選題。
輸入資料: 教材重點:昆蟲的身體主要分為「頭部、胸部、腹部」三個部分,且特徵是擁有「六隻腳(三對步足)」。
設定輸出:
融入測驗層次:需涵蓋 Bloom 分類法的「記憶」與「分析」層次。
出題限制:正向表述,選項長度一致(各 6 個字),不得有「以上皆非」等無效選項。
指定格式:Markdown 表格輸出。
【AI 輸出結果】
題目
選項 A
選項 B
選項 C
選項 D
正確答案
Bloom 層次
根據自然課本的介紹,昆蟲的身體構造主要分為哪三個部分?
頭部胸部腹部
頭部軀幹四肢
觸角胸部尾部
頭部胸部尾部
A
記憶
小華在公園觀察到一隻會飛的動物,牠長有六隻腳。根據特徵,牠最可能是哪類動物?
鳥類動物家族
昆蟲動物家族
爬蟲動物家族
哺乳動物家族
B
分析
【提示詞設計】
目的優先: 你是一位國小高年級社會老師,請針對指定主題設計 2 題單選題。
輸入資料: 主題為「設立科學園區對環境與經濟的影響」,包含促進經濟發展、增加就業機會,但也可能引發環境汙染等問題。
設定輸出:
融入測驗層次:需涵蓋 Bloom 分類法的「理解」與引導「評鑑(多角度思考)」的選擇題。
出題限制:正向表述,四個選項長度必須完全一致(各 7 個字)。
指定格式:Markdown 表格輸出。
【AI 輸出結果】
題目
選項 A
選項 B
選項 C
選項 D
正確答案
Bloom 層次
政府在某地區設立科學園區,最主要會為當地帶來哪一種經濟上的改變?
減少就業的機會
增加就業的機會
減少商家的數量
降低土地的價值
B
理解
雖然科學園區能帶來經濟發展,但如果是當地的環保團體,最可能會擔心哪一種情況發生?
增加當地水質汙染
提升當地居民收入
減少當地工廠數量
改善當地交通狀況
A
評鑑
(註:社會科第二題運用了角色扮演的情境(環保團體),將原本偏向申論的「多角度思考」轉化為符合測驗原則的高階選擇題。)
要利用 AI 產出一整張總分 100 分的高品質月考考卷,最核心的策略是**「多階段拆解(Multi-stage)」**。請不要試圖用一個指令讓 AI 產出整份試卷,這容易導致邏輯混亂或題數不足。
您必須發揮「教師是舵手」的角色,引導 AI 先規畫「試卷藍圖(配分架構)」,接著再「分題型」逐一餵入教材並套用提示詞,最後進行審題與優化。以下為您拆解具體的步驟與實做示範:
第一階段:建立試卷藍圖與配分(總分 100 分) 先請 AI 根據您的單元重點,規畫出一份包含不同題型(如:是非題、選擇題、素養題、簡答題)的配分表,確保難易度與認知層次分布平均。
第二階段:分大題生成試題(套用三層提示語) 依照藍圖,每次只請 AI 產出一個大題。套用「目的優先、輸入資料、設定輸出」的公式,並嚴格加上「出題限制(如:選項等長、正向表述、無以上皆是)」與「布魯姆分類法」等條件。
第三階段:自我迭代與審題優化 若生成的選項誘答力不足,利用「自我迭代」指令要求 AI 修正:「請設定世界一流的評分標準,自行檢視並修改到滿分 10 分再輸出」。
假設我們要出一張 100 分的自然科月考卷。
📍 階段一:請 AI 規畫 100 分試卷藍圖
【您的提示詞 Prompt】
你是一位專業的國小中年級自然老師。我要出一張總分 100 分的「昆蟲家族」月考卷。 教材重點包含:昆蟲特徵(頭胸腹三部分、六隻腳)、常見昆蟲辨識、昆蟲的生長過程(完全變態與不完全變態)。 請幫我規畫一份試卷架構,需包含:1. 是非題、2. 單選題、3. 素養情境題、4. 簡答題。請以表格列出各大題的題數、每題配分、總分,以及主要測驗的認知層次。
【AI 的產出結果】(AI 會幫您建構如下的藍圖,確認無誤後再進入下一階段)
第一大題:是非題(10題 x 2分 = 20分)- 測驗層次:記憶
第二大題:單選題(15題 x 4分 = 60分)- 測驗層次:理解、應用
第三大題:簡答與素養題(2題 x 10分 = 20分)- 測驗層次:分析、評鑑
📍 階段二:分段出題實做(以「第二大題:單選題」為例)
依照藍圖,我們現在要產出 60 分的單選題。為了確保品質,我們可以分批產出(例如先產出前 5 題)。
【您的提示詞 Prompt】
**(目的優先)**你是一位專業的國小自然老師,請根據「昆蟲家族」單元,為月考卷的「第二大題:單選題」先出 5 題單選題。 **(輸入資料)**教材重點:1. 昆蟲身體分為頭部、胸部、腹部。2. 胸部有六隻腳(三對步足)。3. 蝴蝶與甲蟲屬於完全變態(卵、幼蟲、蛹、成蟲)。4. 螳螂與蝗蟲屬於不完全變態(無蛹期)。 (設定輸出與限制)
融入測驗層次:需符合布魯姆分類法的「理解」與「分析」層次。
出題限制:題幹必須為正向表述;四個選項 (A,B,C,D) 長度必須一致;絕對不可出現「以上皆是」或「以上皆非」。
指定格式:請以 Markdown 表格輸出,包含:題號、題目、選項 A~D、正確答案、Bloom 層次、解題邏輯。
【AI 產出的試卷內容(節錄範例)】
題號
題目
選項 A
選項 B
選項 C
選項 D
正確答案
Bloom 層次
解題邏輯
1
小明在校園裡抓到一隻不知名的蟲子,他想確認這是不是昆蟲。他應該優先檢查這隻蟲子的哪一個特徵?
身體是不是綠色
有沒有長出翅膀
是不是有六隻腳
會不會吐絲結繭
C
理解
昆蟲最核心的特徵是胸部有六隻腳(三對步足)。顏色、翅膀或吐絲並非所有昆蟲的共同特徵。
2
自然課時,老師請大家將昆蟲分類。蝴蝶和獨角仙被分在同一組,而蝗蟲和螳螂被分在另一組。請問這種分類方式的依據最可能是什麼?
成長過程有沒有蛹期
平常是不是吃植物的
是在白天還是晚上活動
身體有沒有堅硬的外殼
A
分析
蝴蝶與獨角仙(甲蟲)經歷卵、幼蟲、蛹、成蟲,為完全變態;蝗蟲與螳螂無蛹期,為不完全變態。
📍 階段三:高階素養題與簡答題實做(補足最後的 20 分)
針對最後的 20 分大題,我們可以要求 AI 融入真實情境與多角度思考。
【您的提示詞 Prompt】
請接續出「第三大題:簡答與素養題」。請設計 1 個包含真實情境的題組,總共包含 2 個子題(每題 10 分)。 情境:學校的花圃最近出現了很多毛毛蟲,有些同學提議要噴灑農藥把牠們全部消滅,但有些同學反對。 請要求學生從「生態平衡」與「昆蟲生長階段」的角度進行多角度思考。
【AI 產出的試卷內容】 第三大題:素養情境問答題(共 20 分)
情境閱讀: 學校的花圃最近出現了很多會吃葉子的毛毛蟲,導致植物的葉子都被咬得破破爛爛的。小華提議:「我們應該請學校噴灑農藥,把這些害蟲全部消滅!」但小明卻說:「不行,這樣做可能會破壞花圃的生態。」
第一題(10分): 根據自然課學過的昆蟲成長過程,這些毛毛蟲長大後可能會變成什麼?如果現在把牠們全部消滅,校園裡未來可能會缺少哪一種美麗的昆蟲?
評分標準:能點出毛毛蟲是「完全變態」昆蟲的幼蟲期,未來會化蛹並羽化成蝴蝶或蛾(5分);指出校園會減少蝴蝶(5分)。
第二題(10分): 請你扮演大自然守護者的角色,除了噴灑農藥之外,請提出一個既能保護植物,又能維持生態平衡的好方法。
評分標準:能提出具體且合理的替代方案,例如:將部分毛毛蟲移至專屬的觀察箱飼養、利用天敵(如鳥類)來控制數量,或是只移除部分毛毛蟲而非全滅(10分)。
💡 教師最終把關: 當 AI 分段完成 100 分的考卷後,您可以將這些表格內容複製到 Word 中進行排版。若發現單選題的干擾選項太簡單,教師可直接手動將選項調整得更具誘答力,即可完成一份具備深度、排版整齊且符合素養導向的完美月考卷!
雙向細目表(Two-Way Specification Table / Test Blueprint),又稱為「測驗藍圖」,是編製高品質測驗時不可或缺的核心架構。
它的「雙向」通常指的是兩個維度:
學科內容(Content): 測驗涵蓋的單元、主題或知識點。
認知層次(Cognitive Levels): 學生對知識的掌握程度,通常採用「布魯姆分類法(Bloom's Taxonomy)」,分為記憶、理解、應用、分析、評鑑與創造等層次。
透過這兩個維度交織出的表格,教師能明確標示出各單元在不同認知層次下,應該分配的題型、題數、配分比重與難易度。其最大功用是確保整份試卷的「內容效度(Content Validity)」,避免考題過度集中於某一單元,或偏重於死背記憶的低階題型,確保測驗能真實反映教學目標與課程分布。
在使用 AI 生成試題時,如果沒有給予藍圖限制,AI 往往會隨機產出題目,且研究指出,若無明確引導,AI 非常容易過度生成低階認知(如單純記憶、理解)的題目,而缺乏高階思辨題。
因此,將雙向細目表融入 AI 出題的工作流(Workflow),可以遵循以下四個步驟:
一、 第一階段:請 AI 協助建構「測驗藍圖」 在開始生出具體題目之前,教師應先要求 AI 制定雙向細目表。
做法: 餵入教材重點,並下達指令:「我要出一張 100 分的月考卷,請根據布魯姆分類法,幫我規畫一份試卷的雙向細目表(配分藍圖),用表格列出各大題的主題、題數、配分,以及對應的認知層次。」
目的: 讓教師確認難易度分布合理,發揮「教師為舵手」的把關功能。
二、 第二階段:藍圖驅動的分段出題(Blueprint-Driven Generation) 確認藍圖後,千萬不要請 AI 一次產出整份試卷,而是要根據細目表「分區塊、分階段」進行多階段提示(Multi-stage prompting)。
做法: 依照藍圖的規劃,向 AI 下達精準指令。例如:「請根據藍圖,針對『光學原理』單元,生成 3 題選擇題。這 3 題的認知層次必須設定在『應用(Applying)』與『分析(Analyzing)』級別。」
目的: 透過逐步拆解,可以大幅減少 AI 的邏輯錯誤,並確保產出的題目完全符合藍圖所設定的難度與題數。
三、 第三階段:導入 RAG(檢索增強生成)確保比例與範圍精準 在更專業的測驗(如國家級檢定或大型考試)中,雙向細目表會與 RAG 技術結合。
做法: 將官方課程綱要或測驗藍圖作為系統的「知識庫(Retrieval index)」,強制 AI 只能根據這個藍圖來出題。
目的: 系統能自動強制執行藍圖的比例分配(例如:嚴格控管內科題目占 20%、小兒科占 10%),能有效防止 AI 產出超出課綱範圍(Scope drift)的題目,並確保試題符合在地化的文化與規範。
四、 第四階段:利用 AI 進行藍圖自我檢核(Self-Validation) 題目生成後,可以將雙向細目表轉化為 AI 的「審查清單(Checklist)」。
做法: 要求 AI 進行自我評估:「請檢視你剛才出的這 5 道題目,是否確實符合我們設定的『評鑑』層次?題目的配分與選項格式是否符合規範?如果有不符合的,請重新修正。」
目的: 利用 AI 進行第一道品管過濾,揪出不符合藍圖規範的瑕疵題,最後再交由人類教師進行最終的專業審題與定稿。
在大型考試或專業測驗(如國家證照考試或學校段考)中,「雙向細目表(測驗藍圖)」是確保試卷內容效度與難易度平衡的核心。然而,如果不加限制地讓 AI 出題,AI 往往會偏離課綱範圍,或過度生成偏向「單純記憶」的低階題目。
綜合最新的醫學授權考試 AI 命題研究與教育實務,以下為您整理將「雙向細目表」與 AI 命題深度結合的 5 個高階實作技巧:
要讓 AI 精準對齊藍圖,最有效的方法是採用檢索增強生成(RAG)與配額生成框架(Budgeted generation framework):
課綱定錨(Curriculum-anchored): 不要只給 AI 簡單的單元名稱,而是將官方的課程大綱、學習目標或國家標準指引作為 AI 的「知識庫(檢索索引)」。強制 AI 只能從這些權威資料中提取內容來出題,可大幅降低 AI 產出超綱或文化不適宜題目的風險。
設定配額框架: 根據雙向細目表中的權重,直接在指令中對 AI 下達明確的比例配額(例如:精確要求生成 20% 的內科題、10% 的小兒科題)。當某個「藍圖節點(Blueprint node)」的題數達標後,就停止生成該類題目,確保整份試卷的配分完全符合藍圖分布。
為了方便教師將生成的題目填入雙向細目表的表格中,您可以要求 AI 使用 JSON 格式或 Markdown 語法輸出,並且必須獨立標示出該題所屬的藍圖節點。
實作方法: 在提示詞中規範輸出的欄位必須包含 blueprint_node(對應課綱單元)與 cognitive_level(對應認知層次)。
效益: 這種結構化的資料輸出,能讓系統或教師快速檢核該題是否確實落在細目表設定的格子內,並大幅提升 AI 回覆的精確度與層次感。
研究指出,AI 生成的題目有高達 73.75% 集中在「記憶」與「理解」層次,極度缺乏「分析」與「評估」的高階題目。要落實雙向細目表中的高階指標,提示詞必須加入布魯姆分類法(Bloom's Taxonomy)的特定動作動詞:
對齊「應用」層次: 要求 AI 設計情境,並使用「說明、展示、運用」等動詞。例如:「請設計一個情境,讓學生說明人物的信仰體系如何影響其決策」。
對齊「分析」層次: 要求 AI 產出需要比較或解構的題目,使用「比較、區分、推斷」等動詞。例如:「請出題讓學生區分資訊中的事實與觀點」。
對齊「評鑑」層次: 要求 AI 設計需判斷或辯護的題目,使用「辯護、評判、選擇」等動詞。例如:「給定兩種解決方案,請學生選擇最合乎邏輯的方案並為其辯護」。
不要讓 AI 一次把題目跟選項生出來,這樣很容易導致邏輯錯誤或選項間互相洩漏答案(cueing)。針對細目表中的每一格,應採用多階段拆解:
步驟一: 確立主題與藍圖對齊(如:設定為「心血管系統 - 應用層次」)。
步驟二: 請 AI 撰寫無選項的「臨床情境」或「生活素養題幹」。
步驟三: 擬定主幹問題(正向表述)。
步驟四: 設計 1 個正解與多個具同質性的誘答選項(干擾項)。
最後,您可以將雙向細目表的規範轉化為審查清單,讓 AI 在輸出題目給您之前,先擔任「第一關審查員」進行自我評估與修正。
實作提示詞: 「請根據以下檢核表自我審查你剛才生成的題目:(1) 題目是否確實測驗了藍圖設定的『分析』能力?(2) 題幹是否為正向表述?(3) 誘答選項是否具備合理性?如果有任何不符,請自行修改完善後再輸出最終版本。」
💡 實戰提示詞模板(結合藍圖標籤與結構化輸出):
「你是一位專業的測驗命題專家。請根據我提供的課程指引(貼上特定課綱內容),為期末考生成 1 道單選題。 【藍圖對齊要求】
單元節點:對應『氣候變遷的影響』。
認知層次:對應布魯姆分類法的『評鑑(Evaluating)』層次,請引導學生對不同情境進行『比較與評判』。 【出題限制】
題幹必須是真實情境應用,且為正向表述。
選項長度須由短到長排列,禁止出現『以上皆是』。 【輸出格式】 請以 JSON 或 Markdown 格式輸出,必須包含以下欄位:blueprint_node(對應單元)、cognitive_level(認知層次)、vignette(情境題幹)、lead_in(主問題)、options(選項A~D)、key(正確解答)、rationale_hidden(內部解題邏輯,請說明干擾項為何錯誤)。」
透過這套嚴謹的流程,您就能確保 AI 生成的每一道題目,都能完美且精準地填入您的「雙向細目表」之中。
請教我如何用 RAG 技術確保題目完全對齊課綱範圍。
使用 RAG(檢索增強生成,Retrieval-Augmented Generation)技術是防止 AI 產出「超綱」或不符教學目標題目的最有效方法。RAG 的核心概念是不讓 AI 單憑其內建的龐雜知識庫(可能包含不適用當地的規範或超綱內容)來出題,而是強制 AI 只能從您指定的「權威資料」中提取資訊。
根據來源資料,您可以透過以下 4 個具體步驟與實作技巧,運用 RAG 技術確保題目完全對齊課綱範圍:
一、 建立專屬的「權威知識庫(Curriculum-anchored)」
匯入官方資料: 不要只給 AI 單元名稱,必須將官方的課程大綱(課綱)、學習目標、國家臨床指引或指定的權威教科書,系統性地匯入作為 RAG 的檢索索引(Retrieval index)。
關閉跨區域預設知識: 為了避免文化或地域偏差(例如考出臺灣未核准的藥物或不符臺灣課綱的知識),必須在系統中設定嚴格的區域限制,並明確「關閉跨司法管轄區的備用機制」,只要檢索到不支援的內容就自動拒絕生成,確保題目的在地化與合規性。
二、 結合雙向細目表進行「配額生成(Blueprint-driven coverage)」
設定配額框架: 將測驗的「雙向細目表(試卷藍圖)」整合進檢索脈絡中。您可以利用「預算生成框架(Budgeted generation framework)」,明確向 AI 下達各單元節點的比例目標(例如:嚴格要求內科題目占 20%、兒科占 10%)。
系統層級控管: 當某個課綱節點的題數達標後,系統就停止生成該類題目;若題目超出特定節點的容量,則會被放入修改佇列或排除,以維持整份試卷對齊藍圖的配分比例。
三、 使用「結構化提示(Structured Prompting)」強制標記課綱節點
精準檢索指令: 在要求出題時,使用結構化指令對知識庫進行檢索。例如:「請根據擷取到的課綱學習目標,生成一題關於川崎氏症的兒科單選題」。
強制 JSON 輸出課綱標籤: 要求 AI 產出題目時,必須以 JSON 等結構化格式輸出,並且強制包含 blueprint_node(對應課綱單元/節點)、vignette(題幹)、options(選項)、key(正解)以及 rationale_hidden(隱藏的解題邏輯)等欄位。這能方便後續以自動化方式檢核題目是否落在正確的課綱範圍內。
四、 建立「來源追蹤與專家驗證」的治理機制 在 RAG 工作流中,檢索不僅是技術,更是把關品質的「治理機制」:
附上檢索紀錄(Retrieval logs): 要求 AI 生成的每一道題目,都必須附上完整的檢索紀錄,包含:參考的資料來源、章節段落與時間戳記。
專家查核事實陳述: 在進入題庫前,人類學科專家會獲得這些檢索紀錄的存取權。專家必須核實題幹與選項中的「每一個事實陳述」,是否都能精準追溯到 RAG 知識庫中的官方來源。若出現國際指引與國內課綱衝突的情況,也能透過這些紀錄確保以國內標準為準。
透過這套 「建立專屬課綱知識庫 $\rightarrow$ 設定藍圖配額 $\rightarrow$ 結構化標示 $\rightarrow$ 來源追蹤審核」 的 RAG 工作流,就能將 AI 限制在您畫定的課綱範圍內,大幅降低內容偏移(Content drift)的風險,產出具備高內容效度的高品質考題。
要利用「AI 自我迭代(Self-iteration)」讓生成的考卷題目達到「世界一流」的標準,關鍵在於不要讓 AI 一次性給出最終答案,而是要求它先建立評分標準、進行自我審查,並在內部反覆修改到滿分後再輸出。
綜合來源資料,您可以透過以下具體的步驟與提示詞技巧,將這個高階技巧應用在命題上:
這是一個能讓 AI 答案品質大幅飆升的高級指令。您可以直接在原本的命題提示詞最後,加上這段「自我迭代咒語」:
「在回覆之前,請先制定一份內部評分標準,定義『世界一流』的試題答案。然後,在內部反覆修改完善,直到你的題目完全符合評分標準(10/10),最後只向我展示最終的完美版本。」
雖然要求 AI 定義「世界一流」很有效,但為了確保試題符合測驗專業,您可以直接把「一流試題的條件」變成 AI 的自我檢核清單,要求它在迭代過程中逐一核對:
題幹明確與正向表述:題意是否清楚?是否避免了「下列何者『非』」的反向問法?
選項品質與誘答力:四個選項長度是否一致(或由短到長排列)?錯誤選項(干擾項)是否具備合理的誘答力,而不是太荒謬或太明顯?
無效選項排除:是否已確保沒有出現「以上皆是」或「以上皆非」這類無效選項?
在 AI 進行自我迭代時,您可以要求它運用思維鏈(Chain-of-Thought)進行內部推論。要求 AI 在修改題目時,先在內部解釋「為什麼正確答案是對的」以及「為什麼干擾選項是合理但錯誤的」。透過這種將任務拆解並展示推論的過程,AI 能更精準地找出自己設計的題目是否有邏輯漏洞,進而修正出更高品質的誘答選項。
在專業的測驗命題(如執照考試)中,這套自我迭代機制可被拆解為更嚴謹的四個循環步驟:
自動檢查與產生評論(Critique):AI 先產出初稿,並根據評分標準對題幹、選項進行自我批判。
針對性重產出(Regeneration):AI 僅針對有瑕疵的部分(例如某個誘答力不足的選項或不清楚的題幹)進行重新生成。
重新評估(Re-evaluation):AI 將修改後的新題目再次與完整的檢核清單進行比對,確認已獲得滿分(10/10)。
最終輸出:輸出最終完美版本。
💡 教師的最終把關(Human-in-the-loop) 雖然「AI 自我迭代」能讓題目在結構、語氣和格式上趨近完美,並大幅修復無效選項等常見錯誤,但 AI 仍可能產生學科概念的過度簡化或文化語境上的偏差。因此,當 AI 輸出這份「世界一流」的題目後,仍必須由人類教師進行最終的專業審題與定稿,確保考卷具備絕對的信度與效度。