Tech | 내가 먼저 엿보고 온 시간들

지능의 진화: AGI가 그리는 미래

단일 Task 중심에서 범용성으로: 맥락을 이해하는 AI 현재의 AI는 좁은 AI(Narrow AI), 즉 특정 작업을 수행하는 데 특화된 모델입니다. 예를 들어, 텍스트 생성 AI는 언어적 패턴을 학습하여 인간처럼 글을 쓰지만, 그 글의 의미나 함의를 깊이 이해하지는 못합니다. 이미지 인식 AI는 고양이와 개를 구분할 수 있지만, 그 사진이 왜 찍혔는지, 그 상황이 어떤 맥락인지 파악하지는 못합니다. AGI(범용 인공지능) 로의 진화는 단순히 여러 개의 좁은 AI를 합치는 것이 아닙니다. 핵심은 ‘맥락 이해(Contextual Understanding)’ 와 ‘추론(Reasoning)’ 능력의 획득입니다. 최근 주목받는 ‘멀티모달(Multimodal) AI’ 가 바로 이 방향의 첫걸음입니다. 텍스트, 이미지, 음성 등 여러 형태의 데이터를 동시에 처리하며 종합적인 판단을 내리는 기술이죠. 예를 들어, “이 사진을 보고 재미있는 이야기를 만들어줘"라는 명령에 대해 사진의 시각적 요소뿐만 아니라, 그 사진이 담고 있는 분위기와 의미까지 종합적으로 추론하여 창의적인 결과물을 내놓을 수 있게 됩니다. 이는 AGI가 다양한 상황에 적응하며 스스로 문제를 해결하는 능력을 갖추게 됨을 의미합니다. ...

Gemini On-Device, RFM의 경량화는 어디까지 왔는가?

로봇에게 두뇌를 심는다는 것은 이제 AI 서버를 연결하는 일이 아니라, 그 자체로 ‘두뇌’를 로컬에 직접 넣는 일이 되고 있다. 로봇의 두뇌, 어디까지 작아질 수 있을까? RFM(Robot Foundation Model)의 핵심은 다양한 센서 입력을 통합하고, 상황에 맞는 행동을 생성해내는 범용 추론 능력이다. 하지만 지금까지의 대부분 RFM은 클라우드 연산에 의존하고 있었다. 연산 성능과 메모리 요구가 높고 지연 시간, 연결 문제도 존재했다 DeepMind의 해답: Gemini Robotics On-Device 2025년 6월, Google DeepMind는 [RoboCat, RT-X 등의 연장선]에서 새로운 시도를 공개했다: ...

Robot Foundation Model, 로봇의 GPT가 온다

내가 먼저 엿보고 온 시간들. 그 시작점은 RFM이었다. RFM이란? RFM(Robot Foundation Model) 은 텍스트, 비전, 행동(action) 등 다양한 멀티모달 입력을 통합하여 로봇이 상황을 이해하고, 판단하고, 스스로 움직일 수 있게 해주는 범용 인공지능 모델이다. GPT가 언어의 뇌라면, RFM은 로봇의 시각·행동까지 포함된 진짜 두뇌라고 할 수 있다. 왜 RFM이 중요한가? 기존 로봇은 대부분 특정 작업만 하도록 프로그래밍되었다. 하지만 RFM은 다음과 같은 특징을 갖는다: 💡 다양한 상황에 적응할 수 있는 범용성 🧠 사전 학습을 통해 빠른 행동 실행이 가능한 추론 기반 구조 🔄 실제 환경에서의 fine-tuning 없이도 행동 가능 기존 방식: Rule-based task-specific → RFM 기반: One-model for many-tasks ...