구글 포토에 음성검색·챗봇에 제미나이 1.5프로 적용
  • ▲ 14일(현지시간) 미 캘리포니아주 마운틴뷰 쇼어라인 엠피씨어터에서 열린 '구글 연례 개발자 회의(I/O)'에서 구글 순다르 피차이 최고경영자(CEO)가 발표하고 있다. ©CNET 유튜브 캡처
    ▲ 14일(현지시간) 미 캘리포니아주 마운틴뷰 쇼어라인 엠피씨어터에서 열린 '구글 연례 개발자 회의(I/O)'에서 구글 순다르 피차이 최고경영자(CEO)가 발표하고 있다. ©CNET 유튜브 캡처
    챗GPT 개발사 오픈AI가 지난 13일(현지시간) 보고 듣고 말하는 새로운 AI 모델 'GPT-4o'(GPT-포오)를 공개한 데 이어, 구글이 14일 새로운 AI 비서 '프로젝트 아스트라(Project Astra, 이하 아스트라)'를 공개하면서 'AI 플랫폼' 패권 경쟁이 가속화하고 있다.

    15일 업계와 외신 등에 따르면 구글은 어제 미 캘리포니아주 마운틴뷰 쇼어라인 엠피씨어터에서 열린 '구글 연례 개발자 회의(I/O)'에서 '아스트라'를 선보였다. 

    구글의 생성형 AI '제미나이(Gemini)'의 최신 버전으로 구동되는 '아스트라'는 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 함께 고려해 명령을 처리하는 멀티모달 AI다. '아스트라'는 스마트폰 카메라를 통해 보이는 사물 등을 분석해 음성 명령에 응답한다.

    순다르 피차이 구글 최고경영자(CEO)는 올해부터 제미나이 앱과 자사 제품 전반에 걸쳐 '아스트라'의 기능을 추가하고, 품질을 중심으로 제품화를 추진하겠다고 밝혔다. 또한 미국 내 모든 이용자에게 완전히 개편된 경험인 'AI 개요'를 선보인다고 덧붙였다.

    'AI 개요'는 제미나이를 이용해 검색 결과를 빠르게 요약하고 관련 링크를 제공받을 수 있는 기능이다. 이용자들은 대화 형태로 검색이 가능하며 사진과 동영상으로도도 검색이 가능하다. 구글이 검색 엔진에 생성형 AI를 탑재한 것은 구글의 검색 서비스 역사상 가장 큰 변화로 평가 받는다.

    구글은 미국을 시작으로 더 많은 국가에 제미나이를 탑해나 새로운 검색 기능을 제공하고, 연말까지 10억 명 이상의 사용자가 이를 사용할 수 있게 될 것이라고 덧붙였다.

    이밖에도 구글은 텍스트를 통해 동영상을 생성하는 비오(Veo), 텍스트로 사진을 생성하는 이마젠(Imagen)의 최신 버전 이마젠3, AI로 음악을 만들 수 있는 리리아(Lyria)도 함께 공개하고 구글의 주력 AI인 제미나이 1.5 프로 모델의 업그레이드 버전인 '제미나이 1.5 플래시'도 선보였다.

    구글은 앞서 오픈AI사의 챗GPT 대항마로 지난해 2월 인공지능 모델 '바드(Bard)'를 공개했으나 첫 선을 보이는 제품 시연회서 오답을 내놓고, 최근에는 '제미나이'에 추가된 이미지 생성 기능이 아인슈타인을 흑인으로 그리는 등 오류를 일으키며 국제적 망신을 당했다.

    경쟁사인 오픈AI에 밀려 AI 주도권을 뺏긴 구글이 '제미나이 생태계'를 통해 'AI 검색' 시장의 강자로 떠오를 수 있을지 업계의 관심이 고조되고 있다.

    전 세계 웹 트래픽 분석 사이트 스탯카운터(StatCounter)에 따르면 지난 4월 기준 구글의 전 세계 검색 시장 점유율은 1년 전보다 약 2%포인트 하락했다. 구글 점유일이 여전히 90% 이상을 차지하지만, AI 등장 이후 MS가 검색 엔진 빙에 생성형 AI를 탑재하면서 점유율이 하락한 것으로 분석된다. 

    챗GPT는 전 세계적으로 AI 열풍을 주도하면서 지난해 11월 기준 주간 활성 이용자 수가 1억 명에 달하는 등 구글에 위협적인 존재로 부상하고 있다. 
  • ▲ 미라 무라티(Mira Murati) 오픈AI 최고 기술 책임자(CTO)가 'GPT-4o'를 발표하고 있다. ©CNET 유튜브 캡처
    ▲ 미라 무라티(Mira Murati) 오픈AI 최고 기술 책임자(CTO)가 'GPT-4o'를 발표하고 있다. ©CNET 유튜브 캡처
    한편 오픈AI가 공개한 'GPT 4o'(GPT-포오)는 주로 텍스트를 기반으로 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있는 업그레이드 된 AI 모델이다. 기존 GPT 모델이 텍스트를 통해 명령하는 방식인 반면, 'GPT 4o'는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 실시간으로 제공한다.

    응답 속도도 GPT-3.5는 평균 2.8초, GPT-4는 5.4초가 걸리는 반면 'GPT-4o'는 최소 232밀리초(밀리초·1000분의 1초), 평균 320밀리초에 불과하다. 오픈AI 측은 인간의 응답 속도와 비슷한 수준이며 'GPT-4o' 모델이 기존 GPT-4 터보보다 2배 더 빠르고 작동 비용은 2분의 1 수준이라고 설명했다.

    'GPT-4o'는 대답 중에 끼어들어도 대화를 계속 이어가는 능력을 갖추고 있어 인간을 뛰어넘는 범용인공지능(AGI) 개발에 한 발 더 다가간 모델이라는 평가가 나온다. 'GPT-4o'는 한국어 등 50개 언어로 제공되며 실시간 번역도 가능하다.

    미라 무라티(Mira Murati) 오픈AI 최고 기술 책임자(CTO)는 "이번 업데이트 버전은 모든 이들에게 무료로 제공된다"며 "사용 편의성에 관해 우리가 정말로 큰 진전을 이뤘다고 생각하는 것은 이번이 처음"이라고 말했다.