這是鮮少人知的「隱藏版技巧」。雖然 Veo 聽不到聲音,但它看得懂文字。
我們發現,只要在生成影片的 Prompt (提示詞) 中,明確寫入:"A close-up of Sanxianzi singing the lyrics '... (填入歌詞) ...' with passion"。
模型會根據文字的語意,自動生成「正在唸這些字」的嘴型。雖然無法跟 Suno 的節奏 100% 同步,但嘴型的開合度會看起來非常真實,適合慢歌或唸白段落。
配圖: 這非常重要!請截一張你在生成影片時的 Prompt 輸入框截圖,並用螢光筆把歌詞的部分畫起來,證明你是把歌詞寫進指令裡的。
短片內容:
放一段由這種方法生成的特寫,標註「Text-Driven Lip Sync」。