ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法
ViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法 今日在GPT (General Pretrained Transformer) 的助攻下,基於attention的Transformer早已是深度學習的主流模型之一。不過在電腦視覺領 …
Continue ReadingViT (Vision Transformer) 概述與優勢: 對比CNN與Swin等hierarchical方法 今日在GPT (General Pretrained Transformer) 的助攻下,基於attention的Transformer早已是深度學習的主流模型之一。不過在電腦視覺領 …
Continue Reading概述Model Reparameterization: RepVGG 與後續作 (RepOptimizer, QARepVGG, MobileOne) 在電腦視覺 (Computer Vision) 領域上,不論歷經 ViT (Vision Transformer) 如何地挑戰, …
Continue Reading從YOLOF的觀點深入探究Feature Pyramid Networks (FPN)的背後價值 在物件偵測 (object detection) 領域,不論是 anchor-based或 anchor-free方法,FPN (feature pyramid network) 與其衍生架構是提升偵測 …
Continue Reading在2021年理解Convolution Neural Network: CNN的基礎與未來展望 Deep learning在電腦視覺 (Computer Vision, CV)上最常被使用的架構是 Convolution Neural Network (CNN)。 CNN …
Continue ReadingMasked Autoencoders: 借鏡BERT與ViT的Self-Supervised Learners 長期以來, deep learning在 NLP與 CV領域建模 (modeling) 擁有各自強大的慣例。在架構部分是比較顯而易見的,NLP領域使用 attention為基礎 …
Continue ReadingACON與TFNet: 分析ReLU與近期Swish、SENet發展的關連性 **在近期類神經網路的架構設計, Swish與 SE (squeeze-and-excitation) 是蠻常看見的兩個小技巧。**前者是在 design space中搜出來的 activation function,後者 …
Continue Reading