姓名(含系級):潘柏愷 412216255 電機碩一
期末專題名稱: Vision Transformer
擬研究的範圍與研究題目
近年來,Transformer模型在自然語言處理領域取得了顯著成功,激發了研究人員將其應用於計算機視覺任務。Vision Transformer (ViT)正是將Transformer架構引入圖像領域的嶄新嘗試,展示了其在圖像分類等任務上的潛力。而且ViT 能夠處理大規模數據並在多種計算機視覺任務中超越傳統卷積神經網絡(CNN)。因此本專案會嘗試學習ViT並且運用在CIFAR-100資料集上,如若時間充足,會再實作Imagenet-1k.
說明專案方向與範圍
專案方向:
本專案主要研究 Vision Transformer 在圖像分類中的應用,包括其架構優化、訓練方法改進以及實際應用效果評估。
專案範圍:
首先我們會先研究 Vision Transformer 的基本原理和結構。
接著會在CIFAR-100上實作ViT
然後優化 ViT 的訓練流程以達到更好的正確率。
最後實驗並分析 ViT 在不同計算資源條件下的效率和效果。
說明已蒐集閱讀之資料
擬進行實做、實驗與分析
實做所需要的研究設備:
(A) 軟體設備
python : 3.9.10
pytorch : torch : 2.3.1+cu121
(B) 硬體設備。
AMD Ryzen 7 3700X 8-Core Processor
NVIDIA GeForce RTX 3060
目前已實作程式的初步結果。
目前已經基於 CIFAR-10 數據集實現了一個基本的 ViT 模型,並取得了初步分類結果。模型的準確率達到了 67.95%。
擬增加的程式實作方向。
嘗試不同VIT MODEL 以及 調整VIT參數
嘗試CIFAR-100 imageNet dataset
擬進行的實驗與分析。
評估不同VIT模型 對dataset的影響。
比較 ViT 在 ImageNet, CIFAR-100 上的性能表現。
參考文獻資料
Image-Classification-Using-Vision-transformer , github, youtube
[論文導讀] Vision Transformer (ViT) 附程式碼實作
[Transformer_CV] Vision Transformer(ViT)重點筆記
Vision Transformer, paperwithcode, arxiv, github.
vit-pytorch, github
ViT-CIFAR, github
vision-transformers-cifar10, github