International Conference

2024

2023

2022

2021

2020

2019

~ 2018

[#363] Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation

Minsu Kim*, Jeonghun Yeo*, Se Jin Park, Hyeongseop Rha, Yong Man Ro (* equal contributor)

ACM Multimedia 2024

[#362] MoAI: Mixture of All Intelligence for Large Language and Vision Models

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ECCV 2024 / HuggingFace / Demo

[#361] Weather-aware Drone-view Object Detection via Environmental Context Understanding

Hyunjun Kim, Dahye Lee, Sungjune Park, Yong Man Ro

ICIP 2024

[#360] Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-driven Approach for Cross-modal Alignment Fusion

Taeheon Kim*, Sangyun Chung*, Youngjoon Yu*, Yong Man Ro (*equal contributor)

ICIP 2024 Workshop

[#359] CoLLaVO: Crayon Large Language and Vision mOdel

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

ACL 2024 / HuggingFace / Demo

[#358] Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

Se Jin Park*, Chae Won Kim*, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeonghun Yeo, and Yong Man Ro (* equal contributor)

ACL 2024

[#357] Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection

Taeheon Kim*, Sebin Shin*, Youngjoon Yu, Hak Gu Kim, and Yong Man Ro (* equal contributor)

CVPR 2024

[#356] AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation

Jeongsoo Choi*, Se Jin Park*, Minsu Kim*, and Yong Man Ro (* equal contributor)

CVPR 2024

[#355] Hyperspectral Skin Vision Challenge: Can Your Camera See Beyond Your Skin?

Pai Chet Ng, Zhixiang Chi, Malcolm Low, Juwei Lu, Konstantinos Plataniotis, Nikolaos Boulgouris, Thirimachos Bourlai, Yong Man Ro

ICASSP 2024 Special Session

[#354] Towards Practical and Efficient Image-To-Speech Captioning With Vision-Language Pre-Training and Multi-Modal Tokens

Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, and Yong Man Ro

ICASSP 2024

[#353] Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper

Jeong Hun Yeo*, Minsu Kim*, Shinji Watanabe, and Yong Man Ro

ICASSP 2024

[#352] Persona Extraction through Semantic Similarity for Emotional Support Conversation Generation

Seunghee Han, Se Jin Park, Chae Won Kim, and Yong Man Ro

ICASSP 2024

[#351] Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models

Jeongsoo Choi, Minsu Kim, Se Jin Park, and Yong Man Ro

ICASSP 2024

[#350] Exploring Phonetic Context-aware Lip-Sync for Talking Face Generation

Se Jin Park, Minsu Kim, Jeongsoo Choi, and Yong Man Ro

ICASSP 2024

[#349] OSR via Visual Prompts from Common-Sense Knowledge

Seongyeop Kim, Hyung-Il Kim, and Yong Man Ro

AAAI 2024