Rohun Tripathi

Research Scientist

About Me

I am a Research Scientist at Ai2, building multimodal AI systems, leading the model development.

I develop foundation models for vision, robotics, and multimodal reasoning, with a focus on large-scale modeling, training and data curation - Molmo, Molmo2 and MolmoBot. Previously, at Amazon Research, I led projects spanning image and video generation, video understanding, and visual perception, taking models from research to production.

I hold a Master’s in Computer Science from Cornell Tech and a B.Tech. in Computer Science from IIT Kanpur.

I enjoy mentoring researchers and engineers and collaborating on ambitious AI projects. Additionally, I am passionate about exploring the intersection of AI and plant based food.

Download CV

Publications

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation. Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna. ICRA 2026 SDRL Workshop (Best Paper Award).

PDF Cite Code Dataset Project Source Document

MolmoPoint: Better Pointing for VLMs with Grounding Tokens. Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna. ECCV 2026.

PDF Cite Project Source Document

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding. Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna. CVPR 2026 (Best Paper Award Nominee).

PDF Cite Code Dataset Project Source Document

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition. Tanush Yadav, Mohammadreza Salehi, Jae Sung Park, Vivek Ramanujan, Hannaneh Hajishirzi, Yejin Choi, Ali Farhadi, Rohun Tripathi†, Ranjay Krishna†. CVPR 2026 Highlight.

PDF Cite Dataset Project Source Document

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning. Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi. CVPR 2026.

PDF Cite Code Project Source Document

HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples. Rishikant Chigrupaatii, Ponnada Sai Tulasi Kanishka, Lalit Chandra Routhu, Martin Patel Sama Supratheek Reddy, Divyam Gupta, Dasari Srikar, Krishna Teja Kuchimanchi, Rajiv Misra, Rohun Tripathi. ACL 2026 AVLR Workshop.

PDF Cite Dataset Source Document

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs. Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee. Arxiv 2026.

PDF Cite Source Document

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models. Matt Deitke*, Christopher Clark*, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Others. CVPR 2025.

PDF Cite Code Dataset Source Document

SIDGAN: High-Resolution Dubbed Video Generation via Shift-Invariant Learning. Urwa Muaz, Won-Dong Jang, Rohun Tripathi, Santhosh Mani, Wenbin Ouyang, R. Gadde, Baris Gecer, Sergio Elizondo, Reza Madad, Naveen Nair. ICCV 2023.

PDF Cite Source Document

MODEFORMER: Modality-Preserving Embedding For Audio-Video Synchronization Using Transformers. Akash Gupta, Rohun Tripathi, Won-Dong Jang. ICASSP 2023.

PDF Cite Source Document

ASAP-NMS: Accelerating Non-Maximum Suppression Using Spatially Aware Priors. Rohun Tripathi*, Vasu Singla*, Mahyar Najibi, Bharat Singh, Abhishek Sharma, Larry Davis. Arxiv 2020.

PDF Cite Source Document

RSO: A Gradient Free Sampling Based Approach For Training Deep Neural Networks. Rohun Tripathi, Bharat Singh. Arxiv 2020.

PDF Cite Source Document

Automatic Generation and Evaluation of Usable and Secure Audio reCAPTCHA. Rohun Tripathi*, Mohit Jain*, Ishita Bhansali, Pratyush Kumar. ACM ASSETS 2019.

PDF Source Document

Semantic Segmentation with Scarce Data. Rohun Tripathi*, Isay Katsman*, Andreas Veit, Serge Belongie. ICML Workshop 2018.

PDF Cite Source Document

Enterprise Scale Privacy Aware Occupancy Sensing. Surya Sajja, Ashok Pon Kumar, Rohun Tripathi, Satyam Dwivedi, Amith Singhee, Marnik Vermeulen. IEEE EDGE 2018.

Cite Source Document