幕後故事Recreate DoNa's Style (打造 DoNa 的風格)
為了讓網頁看起來簡易,在除錯方式採收合的群組藏提示詞
「AI 生成技術筆記:國家教育研究院捷運(三峽)站影片優化紀錄」
為了讓網頁看起來簡易,在除錯方式採收合的群組藏提示詞
「AI 生成技術筆記:國家教育研究院捷運(三峽)站影片優化紀錄」
特色: 帶有情感與溫度。
格式: 像寫日記一樣。「今天 DoNa 又不聽話了,原本以為是...結果發現...最後終於...」。
優點: 讀者會覺得跟你有共鳴,像是在看創作花絮,比較不枯燥。
預留AMAZON廣告
除錯方程式
琵琶
月琴
專案: 國家教育研究院(三峽)站 (Sanxia Station) 捷運之歌 MV 日期: 2025.12.15
1. 視覺邏輯與物理修正 (Visual Logic & Physics)
人物原貌還原: 修正部分鏡頭中 DoNa 臉部特徵與服裝走樣的問題,重新生成以確保與原始設定(Original Character Design)完全相符。
場景空間校正: 修復廟宇大廳(Temple Hall)背景生成的透視與結構錯誤,還原莊嚴的空間感。
道具邏輯修復: 解決部分畫面中「月琴消失」或與服飾搭配不合理的物理錯誤 (Glitch),確保樂器與人物互動的真實感。
2. 視覺一致性 (Visual Consistency)
服裝色準鎖定: 修正 DoNa 服裝在不同光影鏡頭下發生的「變色」問題,統一色調以維持視覺連貫性。
3. 表演與動態優化 (Performance & Audio)
文字亂碼修復: 針對 VEO 生成畫面中籤詩(Fortune Stick)出現的中文字形亂碼進行局部重繪與修復,確保文字清晰可讀。
敘事清晰度提升: 優化籤詩畫面的呈現方式,解決原 VEO 素材語意不清的問題,增強故事傳達力。
音訊工程重建 (Audio Remastering):
問題診斷: 原 Suno 生成之歌曲尾段出現人聲虛弱 (Weak Vocals) 及咬字模糊 (Unclear Articulation) 的現象。
解決方案: 執行多次重新生成與音訊修復 (Inpainting),並透過 Google Vids 重新剪輯與對軌,成功找回歌曲的情感張力與完整性。
-----------------------------------
Suno(以及類似的模型)在運作時,是像「接龍」一樣,根據前幾秒的聲音來預測下一秒的聲音。
記憶力限制: AI 就像一個短期記憶有限的畫家。剛開始(前 30 秒)它還記得清楚的指令和風格,但隨著時間拉長,它開始「忘記」最初的高畫質細節,導致聲音越來越像雜訊。
誤差累積: 如果第 10 秒有一點點模糊,第 11 秒就會根據那個模糊的聲音繼續生成,錯誤不斷疊加,最後就會變成您聽到的那種「含糊不清且音調雷同」的狀態。
要突破這個 30 秒魔咒,我們不能依賴 AI 一次把整首歌唱完,而是要學會當「導演」。以下是兩個關鍵策略:
1. 使用「延伸」(Extend)功能 🧩
這是最有效的解決方案。不要一次生成 2 分鐘,而是像拼拼圖一樣:
步驟 A: 先生成前 30-60 秒(直到它變模糊之前)。
步驟 B: 找到聲音還很清晰的時間點(例如 00:29),選擇 "Extend from this time"(從此處延伸)。
步驟 C: 加入下一段歌詞,繼續生成新的片段。
原理: 這樣 AI 每次只需要專注於生成短短的高品質片段,而不會「過勞」。
2. 強化歌詞結構標籤 (Metatags) 🏷️
Suno 需要清楚的導航指令。如果沒有標籤,它會迷路。試著在歌詞中加入明確的段落:
[Verse] (主歌) - 通常敘事,音調較低。
[Chorus] (副歌) - 情感強烈,通常最清晰。
[Outro] (結尾) - 告訴 AI 該結束了,避免它無限循環模糊的聲音。
祖師廟籤筒影片最後的四十七的籤號,修改的生成過程
由於目前AI對於宗教和哲學保持敬而遠之的生成,需要自己調整內容
祖師廟大廳
47籤條
籤盒
解籤書
四十七籤詩
籤盒
DONA
第一張抽籤照片
照片1是三峽清水祖師廟左側邊有一籤牌號的竹枝筒,將照片2的DONADONA彈月琴的照片原貌放入照片的場景,照片3是支從竹枝筒抽出的竹枝籤條(中間有四十七的中文數字)將此四十七的竹枝融合入照片1的場景。生成一張新的照片是在廟的神像前的模拜廳前,DONA從竹枝筒抽出一支竹枝籤號有四十七的幸運數字,DONA喜喜若狂的歡呼著
Canvas
要生成一支veo3.0的影片,DONA在三峽祖師廟廳前的竹枝抽籤筒裡抽籤出一支竹籤枝上面的籤號四十七,表示是靠牆的整排紅色籤盒的數字裡的四十七的籤盒,DONADONA抽出籤盒取得一張淺粉紅色紙條,正面和背面有籤詩文和籤詩文的解說文。在籤盒牆邊掛一本古籍解籤書冊。影片顯示如紙條籤詩文【
可看影片最後的段落
主角: DONA (特徵:背著月琴、戴耳機的現代與傳統融合風格)
場景: 三峽祖師廟大廳 (Sanxia Zushi Temple)
關鍵動作: 搖籤筒 -> 抽出47號籤 -> 找紅色籤櫃 -> 取出粉紅籤詩 -> 唸出詩句
關鍵物件: 竹籤(四十七)、紅色數字籤盒、粉紅色籤詩紙、古籍解籤書
建議輸入給 AI 的主要提示詞 (英文版,以確保最佳理解力):
Cinematic, photorealistic 8k video.
Character: DONA, a young Asian woman with shoulder-length light brown hair, wearing large orange over-ear headphones. She is dressed in a white grid-patterned blazer with fluffy feather cuffs, white shorts, and light blue flip-flops. She carries a traditional wooden Moon Guitar (Yueqin) strapped to her back.
Setting: The interior of the Sanxia Zushi Temple in Taiwan. Intricate stone carvings on pillars, dark wooden architecture, atmospheric lighting with incense smoke. A wall of small dark wooden drawers with red labels and golden numbers is visible.
Action Sequence:
DONA stands in the temple hall, holding a wooden fortune stick cylinder. She shakes it gently until one bamboo stick falls out. Close-up on the stick showing the Traditional Chinese characters "四十七" (Forty-Seven).
She turns to a wall of wooden medicine cabinets (fortune drawers). The drawers have red labels. She points to the drawer numbered "47".
She opens the drawer and takes out a slip of light pink paper.
The camera focuses on the pink paper, revealing clear Traditional Chinese text: "現出一真人,便是玉麒麟,天花龍吐水,頂上一枝春。".
DONA holds the paper, looks at the camera, and speaks clearly. Next to her on a wooden table lies an opened ancient book with vertical text.
Atmosphere: Sacred, cultural, respectful, detailed textures of stone and wood.
若 Veo 3.0 支援分鏡描述或長鏡頭,請使用以下細節強化:
畫面: DONA 站在雕刻精美的石柱旁。手中搖動深褐色的木製籤筒。
特寫: 一支竹籤掉落,鏡頭聚焦在竹籤頂端,清晰可見寫著中文數字「四十七」。
畫面: DONA 走向背景的籤櫃牆。牆面由許多深色木頭小抽屜組成,每個抽屜上有紅色的標籤貼紙。
動作: 她的手指滑過櫃子,停在標示「四十七」的紅色籤盒上,將其拉開。
畫面: 她從櫃中取出一張淺粉紅色的紙條(籤詩)。
細節: 旁邊的桌上放著一本翻開的線裝古書(解籤書)。
特寫: 籤詩紙條的特寫,紙是粉紅色的,字是黑色的繁體中文。
對白同步: DONA 的嘴型與語音同步,神情專注且咬字清晰。
若模型支援「Text-to-Audio」或「Lip Sync」,請使用以下設定:
Voice Style: Young female, clear, standard Mandarin Chinese, calm and storytelling tone. (年輕女性聲音,清晰標準中文,冷靜且具敘事感的語調)
Spoken Text (Verbatim): "現出一真人,便是玉麒麟,天花龍吐水,頂上一枝春。" (Xian chu yi zhen ren, bian shi yu qi lin, tian hua long tu shui, ding shang yi zhi chun.)
告訴 AI 不要生成什麼:
blurry text, distorted hands, morphing instruments, simplified Chinese characters, wrong number on stick, blue paper (must be pink), messy background, western church architecture, guitar in hands (must be on back), angry expression.
籤詩內容參考:
標題: 第四十七首靈籤
詩文: 現出一真人,便是玉麒麟,天花龍吐水,頂上一枝春。
籤盒外觀: 深色木頭,紅色長方形標籤,金色或黑色字體。
DONA 穿著: 白色格紋西裝外套(袖口有毛)、白色短褲、橘色耳機、背著月琴。
47籤詩文
更改正確的籤詩再重新接續
錯誤的影片,紙籤亂碼
為了避免犯錯誤,每此生成影片仍然需要傳一張影片開頭的照片
再截取生成影片的中間接續片段提示給Canvas:照片拿著月琴的DONA,唱著優美高亢的中文歌曲(曲調如歌仔戲的閩南語音調)歌曲詞句是:「天上吐龍水,頂上一枝春」。該如何提示詞給VEO3.0才能精確的唱出文字歌詞
這份文件包含了給 AI 的詳細英文提示詞(因為這是目前主流生成工具最能精準理解的語言),同時也保留了中文的語境說明。
使用建議:
分段生成:目前的影片生成技術(如 Veo, Sora, Gen-3)在處理連續複雜動作時,建議將「搖籤」和「唸詩」分成兩段生成,再透過剪輯接合,效果會最穩定。
文字渲染:若影片生成的文字(籤詩上的字)不夠清晰,建議在後製時使用 AE 或剪輯軟體將您上傳的 47籤內容.jpg 合成上去,會比純 AI 生成更完美。
嘴型同步:提示詞中特別強調了 DONA 唸詩的畫面,這有助於後續做 Lip-Sync(嘴型同步)處理。
您可以直接複製 Markdown 文件中的英文 Prompt 部分貼入 Veo 3.0 使用。
針對您的需求,要讓 AI 影片生成模型精確呈現「特定歌詞」與「特定曲調」,提示詞必須包含三個核心層面:視覺描述 (Visuals)、聲音風格 (Audio Style) 以及 歌詞內容 (Lyrics)。
建議使用 英文提示詞 輸入,因為目前的模型對英文指令的理解與權重分配通常較為精確。
將以下這段文字直接輸入給 VEO 3.0:
Cinematic close-up of a young Asian woman named DONA, wearing orange over-ear headphones and a white feather-textured jacket, holding a traditional Chinese Yueqin (moon lute) in an old temple courtyard. She is singing passionately with a high-pitched, beautiful voice in the style of traditional Taiwanese Gezai Opera (Minnan folk style). The melody is distinct and melodious. She clearly articulates the lyrics in a singing voice: "Tian Shang Tu Long Shui, Ding Shang Yi Zhi Chun". The lighting is natural and soft, creating a cultural and ethereal atmosphere.
主體描述 (Subject):
Prompt: "Young Asian woman named DONA, wearing orange over-ear headphones and a white feather-textured jacket..."
目的: 確保生成的 DONA 形象符合您提供的照片(白色羽毛衣、橘色耳機)。
動作與樂器 (Action & Prop):
Prompt: "...holding a traditional Chinese Yueqin (moon lute)... singing passionately..."
目的: 鎖定「月琴」這個關鍵樂器,並強調「熱情歌唱」的動作,這有助於模型生成張嘴與表情的動態。
聲音風格 (Audio Style) - 關鍵所在:
Prompt: "...high-pitched, beautiful voice in the style of traditional Taiwanese Gezai Opera (Minnan folk style)."
目的:
High-pitched: 對應您要求的「高亢」。
Taiwanese Gezai Opera: 指定「歌仔戲」曲調。
Minnan folk style: 強調「閩南語音調」的韻味。
歌詞指定 (Specific Lyrics):
Prompt: "She clearly articulates the lyrics in a singing voice: 'Tian Shang Tu Long Shui, Ding Shang Yi Zhi Chun'."
目的: 使用羅馬拼音(Pinyin)加上引號,有助於模型捕捉發音節奏。
備註: 雖然您提供的照片中籤詩寫的是「天花龍吐水」,但我依照您的要求使用了「天上吐龍水」。
目前的 AI 影片模型(如 VEO, Sora, Gen-3)在「無中生有」生成精確歌詞發音上仍有幻覺(Hallucination)問題。如果直接生成的效果中,歌詞含糊不清,建議採用 「音訊驅動 (Audio-Driven)」 流程:
第一步:先生成聲音 (Audio First)
使用專門的 AI 音樂生成工具 (如 Suno AI 或 Udio)。
Style Prompt: "Female vocals, Taiwanese Opera, Gezai, High-pitched, Traditional Yueqin accompaniment."
Lyrics: 輸入您指定的中文歌詞「天上吐龍水,頂上一枝春」。
下載生成的 MP3。
第二步:圖/文 + 聲音 生成影片 (Image + Audio to Video)
將您的 DONA 照片 上傳到 VEO。
上傳您剛生成的 MP3 音檔。
Prompt: "A woman singing along to the audio, playing the Yueqin, realistic lip-sync, emotional expression."
這是目前要達到「字正腔圓」最保險的做法。
電影感特寫,一位名叫 DONA 的年輕亞洲女性,戴著橘色耳罩式耳機,身穿白色羽毛質感外套,在古老的廟宇庭院中抱著一把傳統月琴。她正以優美高亢的嗓音演唱,曲調為傳統台灣歌仔戲(閩南語民謠風格)。她清晰地唱出歌詞:「天上吐龍水,頂上一枝春」。光線自然柔和,充滿文化與空靈的氛圍。
經過除錯,從5%到60%再生成80%成功率(三峽捷運站歌曲)
影片展開採滑鼠按右鍵,會跳出現畫面選音訊,再調整右側的音量儀表