구글이 초고속 AI 모델 '제미나이 2.5 플래시'와 '제미나이 2.5 플래시 라이트' 프리뷰 버전을 출시했습니다. 특히 플래시 라이트는 이전 대비 40% 빨라진 초당 887토큰의 출력 속도를 기록하며, 현재까지 테스트된 첨단 모델 중 가장 빠른 성능을 자랑합니다. 이는 복잡한 추론, 에이전트 기능, 이미지/오디오 처리 능력을 향상시키면서도 비용 효율성을 크게 개선한 결과입니다.
구글이 인공지능(AI) 모델의 속도와 효율성을 극대화한 '제미나이 2.5 플래시(Gemini 2.5 Flash)' 시리즈를 새롭게 선보였습니다. 이번에 공개된 모델들은 기존의 첨단 AI 모델 중 가장 빠른 출력 속도를 기록하며, 기업들의 고빈도·대규모 트래픽 환경에서의 비용 효율성 개선에 크게 기여할 것으로 전망됩니다.
AI 모델, 속도와 지능의 새로운 기준 제시 🚀
구글은 26일(현지시간) AI 스튜디오와 버텍스 AI 플랫폼을 통해 '제미나이 2.5 플래시'와 '제미나이 2.5 플래시 라이트(Gemini 2.5 Flash-Lite) 프리뷰' 버전을 공개했습니다. 이 모델들은 속도 향상에 초점을 맞추면서도 복잡한 추론을 통한 다단계 작업 처리 능력과 도구 사용 능력을 강화한 것이 특징입니다. 코드 작성 벤치마크인 'SWE-벤치 베리파이드'에서 54%의 점수를 기록하며 이전 버전 대비 5.1%포인트 개선되는 성과를 보였습니다.
특히, 이번 업데이트는 불필요한 장황함을 줄이고 지시문 준수율을 높이는 데 중점을 두었습니다. 또한, 이미지 이해, 번역, 오디오 전사 등 다양한 작업에서의 품질 향상도 이루어졌습니다. 가장 주목할 만한 점은 출력 토큰 사용량을 절반 수준으로 줄여, 고빈도 및 대규모 트래픽 환경에서도 비용 효율성을 크게 개선했다는 것입니다.
초당 887 토큰, 경이로운 속도 달성
그중에서도 '제미나이 2.5 플래시 라이트'는 인공지능 성능 평가 전문 기관인 아티피셜 애널리시스(Artificial Analysis)의 평가에서 초당 887 토큰이라는 경이로운 출력 속도를 기록했습니다. 이는 이전 버전 대비 40% 빨라진 수치이며, 현재까지 테스트된 주요 첨단 모델들 중 가장 빠른 속도로, 'GPT-5'나 '그록 4 패스트'와 같은 경쟁 모델들의 성능을 능가하는 수준입니다.
비용 효율성과 성능, 두 마리 토끼 잡다
제미나이 2.5 플래시와 2.5 플래시 라이트 프리뷰 모델은 품질과 속도 모두에서 괄목할 만한 개선을 이루어냈습니다. 제미나이 2.5 플래시 라이트의 경우 출력 토큰이 50% 감소하여 비용 절감 효과가 극대화되었으며, 제미나이 2.5 플래시는 24%의 토큰 감소 효과를 보였습니다. 이는 기업들이 AI 시스템 운영에 드는 비용 부담을 크게 줄일 수 있음을 시사합니다.
- 플래시 라이트 출력 속도: 이전 버전 대비 40% 향상 (초당 887 토큰)
- 출력 토큰 사용량 감소: 플래시 라이트 50%, 플래시 24%
구글은 이번 최신 버전을 'gemini-flash-latest'와 'gemini-flash-lite-latest'라는 이름으로 제공하며, 안정성을 최우선으로 하는 사용자들을 위해 기존 제미나이 2.5 플래시와 제미나이 2.5 플래시 라이트 모델도 계속해서 이용 가능하도록 할 예정입니다.
유연한 가격 정책과 뛰어난 벤치마크 성과
이번 제미나이 2.5 플래시 시리즈의 가격은 이전과 동일하게 책정되어 사용자 부담을 더욱 낮췄습니다. 2.5 플래시 프리뷰 모델은 입력 100만 토큰당 0.30달러, 출력 100만 토큰당 2.50달러로 제공되며, 2.5 플래시 라이트 프리뷰 모델은 입력 100만 토큰당 0.10달러, 출력 100만 토큰당 0.40달러로 이용할 수 있습니다.
외부 평가 기관 바이스 AI(Vice AI)에 따르면, 플래시 모델은 터미널벤치(+5%), GPQA(+17.2%), CorpFin(+4.4%) 등 다양한 벤치마크에서 큰 폭의 개선을 기록했습니다. 또한, MMMU(Massive Multitask Language Understanding) 벤치마크에서는 38개 모델 중 3위, SWE-벤치에서는 20개 모델 중 6위에 오르며 뛰어난 성능을 입증했습니다. 특히, 동급 성능을 가진 다른 모델들의 절반 수준의 비용으로 이용 가능하다는 점은 경제성을 중시하는 기업들에게 매력적인 요소로 작용할 것입니다.
| 벤치마크 | 개선율 | 순위 (총 모델 수) |
|---|---|---|
| 터미널벤치 | +5% | - |
| GPQA | +17.2% | - |
| CorpFin | +4.4% | - |
| MMMU | - | 3위 (38개) |
| SWE-벤치 | - | 6위 (20개) |
특히 법률 및 금융 관련 벤치마크에서는 플래시 모델이 플래시 라이트 모델보다 10% 높은 성능을 보였습니다. 이는 플래시 라이트가 초고속 응답에 특화되어 있다면, 플래시 모델은 더 복잡하거나 엔터프라이즈급의 업무 처리에 적합함을 시사합니다.
음성 특화 모델 '제미나이 라이브 API'도 강화 🗣️
구글은 이날 발표에서 음성 처리에 특화된 '제미나이 라이브 API(Gemini Live API)'의 대폭적인 강화 소식도 함께 전했습니다. 이번 개선을 통해 함수 호출의 신뢰성이 크게 향상되어, 단일 호출 성공률이 두 배로 증가했습니다. 또한, 5~10개에 이르는 다중 호출 환경에서도 성공률이 1.5배 향상되었습니다. 이는 고객센터와 같이 실시간 음성 응용 분야에서 중요한 진전으로 평가됩니다.
더불어, 자연스러운 대화 처리 능력이 강화되어 사용자의 갑작스러운 간섭, 배경 소음, 혹은 잠시 멈춤과 같은 상황에도 자연스럽게 대응하며 대화의 맥락을 놓치지 않고 이어갈 수 있게 되었습니다. 이는 사용자 경험을 한층 끌어올릴 것으로 기대됩니다.
‘생각(Thinking)’ 기능 도입으로 복잡한 쿼리 처리 능력 향상
구글은 다음 주부터 제미나이 라이브 API에 '생각(thinking) 기능'을 도입할 예정입니다. 이 기능은 모델이 복잡한 쿼리를 처리하기 위해 추가 시간을 확보할 수 있도록 지원하며, 이 과정에서 중간 사고 과정을 텍스트로 요약하여 제공합니다. 개발자들은 현재 'gemini-2.5-flash-native-audio-preview-09-2025'를 통해 새로운 라이브 모델을 체험할 수 있으며, 이 버전은 실시간 오디오 입력과 오디오 응답을 기본적으로 지원합니다.
제미나이 2.5 플래시 시리즈의 초고속 성능과 비용 효율성은 AI 시장의 경쟁을 더욱 심화시킬 것으로 보입니다. 하지만, 모델의 복잡성이 증가함에 따라 발생할 수 있는 윤리적 문제, 데이터 편향성, 그리고 잠재적인 오용 가능성에 대한 지속적인 연구와 사회적 합의가 필요할 것입니다. 또한, AI 모델의 빠른 발전 속도는 기존 기술 인프라 및 관련 산업 생태계에 대한 적응력을 요구할 것으로 전망됩니다.
