'데이터-소프트웨어' 등 440만 건 공개... "구글 정보량 보다 2배 많아"지식그래프 구축 솔루션, 데이터, API 등 공개 예정'삼성 오픈소스-지식그래프 구축-새로운 소프트웨어 소스 공유' 선순환 구조 만들 것
  • ▲ 지식그래프는 개발자와 최종 사용자의 끊임없는 상호 작용에 의해 한층 풍부하고 깊이 있는 형태로 발전해 나아간다. ⓒ삼성전자
    ▲ 지식그래프는 개발자와 최종 사용자의 끊임없는 상호 작용에 의해 한층 풍부하고 깊이 있는 형태로 발전해 나아간다. ⓒ삼성전자

     

    삼성전자가 지식그래프 프로젝트 '케이샵(K#, K-Sharp, Samsung Knowledge Sharing Platform)'으로 전세계 개발자들이 마음껏 뛰어놀 수 있는 집단지성 놀이터 구축에 나섰다.

    7일 삼성전자에 따르면 삼성전자 소프트웨어센터는 검색 업계에서 블루오션으로 떠오른 지식그래프 시장에 본격적으로 뛰어들기 위해 최근 지식그래프 구축을 활용할 수 있는 데이터와 소프트웨어를 공개했다.

    온라인 개발자 커뮤니티인 '기트허브닷컴(github.com)'에 공개된 소프트웨어는 케이샵의 일부다. 케이샵은 ‘삼성전자형 지식그래프’를 생성하고 지식 기반 서비스를 제공하려는 목적 아래 추진 중인 프로젝트다.

    삼성전자의 지식그래프는 백과사전처럼 광범위한 지식과 기업 환경에서 사용되는 전문 지식으로 구성돼 있다. 현재 기트허브엔 백과사전 지식을 구축하기 위한 데이터 모델, 대규모 오픈 지식 베이스의 통합을 위한 동일관계 정의 데이터와 구축 도구가 포함돼 있다.

    대부분의 IT 기업들이 검색 소프트웨어를 개발할 때 자신들만의 벽을 쌓고 독채를 지어 올렸다면 삼성은 '개방성'을 택했다. 집단지성 개념에 기초해 분야별 전문가들이 자유롭게 왕래할 수 있도록 커다란 광장을 조성하고 소프트웨어 소스를 단계적으로 개방해 비옥한 개발 환경을 일구는 동시에 자체 개발력도 성장시켜나가겠다는 복안이다.

    지식그래프란 쉽게 얘기해 사용자가 검색한 키워드에 관한 콘텐츠를 총체적으로, 그리고 가시적으로 보여주는 '그래프화(化)된 지식'으로 정의된다. 검색엔진과 결합, 하나의 키워드에 관련된 데이터들과 그 관련성을 보기 쉽게 제시해준다. 사용자가 검색한 키워드 관련 지식을 통합적으로 보여주는 동시에 연관 키워드까지도 쉽게 찾을 수 있도록 해주는 소프트웨어인 셈이다.

    지식그래프는 △출처가 서로 다른 대량의 데이터를 통합한 후 정리하고 △최종 사용자(end-user)의 요구 사항에 맞춰 그 결과를 일목요연한 콘텐츠 형태로 도출하는 요건을 충족시켜야만 한다.

    삼성전자가 이번에 공개한 데이터의 일부인 '세임애즈(sameAs)'의 경우, 그 명칭에서 유추할 수 있듯 지식그래프를 이루고 있는 개념 간 동일 관계를 나타낸다.

    예를 들어 사용자가 '탑'이라는 키워드를 검색했을 때 수많은 데이터 가운데 아이돌 그룹 빅뱅 멤버 탑(T.O.P)의 최신 뮤직 비디오 ‘루저’와 배우 탑(본명 최승현)의 출연작인 ‘타짜-신의 손’ 포스터 사이에서 '가수 겸 배우 탑'의 개념을 찾아 '두 데이터 속 탑은 동일 인물'이란 관계를 설정해주는 식이다.

    사실 이 같은 과정은 경험과 학습에 의해 인지되며 컴퓨터가 자동으로 이런 정보를 저장하고 이해하기란 불가능하다. 세임애즈 데이터는 대규모 데이터 사이에서 동일 개체란 걸 표현해 컴퓨터가 자동으로 판단할 수 있는 기준 정보가 된다. 이런 정보가 주어지면 컴퓨터는 '가수 겸 배우 탑'과 '일반명사 탑(tower)'이 다르다는 사실도 자연스레 유추할 수 있다는 것이 삼성 측 설명이다.

  • ▲ 김학래 삼성전자 소프트웨어센터 책임. ⓒ삼성전자
    ▲ 김학래 삼성전자 소프트웨어센터 책임. ⓒ삼성전자

     


    케이샵 프로젝트 추진 업무를 담당하고 있는 김학래 삼성전자 소프트웨어센터 책임은 "세임애즈 관계를 찾는 건 데이터 재사용과 통합 과정에서 필수적이지만 매우 어려운 문제 중 하나"라며 "그런 의미에서 케이샵 프로젝트는 오픈 지식그래프 커뮤니티 형성에 기술적으로 기여할 수 있는 중요한 첫걸음이 될 수 있다"고 강조했다.

    지식그래프의 등장은 IT 산업에 엄청난 혁신(innovation)을 안겨줄 것으로 기대된다. 인공지능(Artificial Intelligence, AI) 개발이 처음 본격적으로 거론되던 1950년대부터 지속적으로 예견돼온 인공지능의 가능성과 문제점에 획기적 해결책을 제시하고 있다는 점에서 특히 주목받고 있다.

    이번에 공개되는 세임애즈 데이터 결과물은 대표적 오픈 데이터베이스인 프리베이스(Freebase)와 위키데이터(WikiData) 사이의 동일 관계를 찾아낸 데이터세트와 연관돼 있다. 총 440만 건 규모인 이 데이터세트는 구글에서 공개한 세임애즈 데이터세트보다 정보량이 두 배 가까이 많다. 삼성전자가 공개한 세임애즈 데이터는 바로 이 데이터세트를 생성하기 위한 소프트웨어 소스코드다.

    삼성의 케이샵 프로젝트는 그간 개발해온 관련 결과물을 순차적으로 공개해 지식그래프 생성을 위한 오픈 커뮤니티에 능동적 행위자로 뛰어들겠다는 선언과도 같다. 궁극적으로 삼성전자의 기술 수준 향상을 위한 '오픈 이노베이션(open innovation)'과 장기적 기술 개발의 토대가 되는 '기술 네트워크 형성' 등 두 마리 토끼를 모두 잡겠다는 의지다.

    김학래 책임은 "케이샵 프로젝트가 성공적으로 안착하면 전 세계 개발자들이 자유롭게 협업할 수 있는 공간이 또 하나 탄생하게 될 것"이라며 기대감을 내비쳤다.

  • ▲ 삼성전자 소프트웨어센터가 지난해 시험적으로 만든 지식그래프 애플리케이션 ‘그노시스(Gnosis)’의 초기 화면(왼쪽 사진).ⓒ삼성전자
    ▲ 삼성전자 소프트웨어센터가 지난해 시험적으로 만든 지식그래프 애플리케이션 ‘그노시스(Gnosis)’의 초기 화면(왼쪽 사진).ⓒ삼성전자

     


    삼성전자가 지식그래프 관련 데이터와 소스를 공개한 배경엔 세계 각지에 산재해 있는 개발자들을 초대해 한데 어울리게 하려는 의도가 있다. 이제까지의 검색엔진이 외부에선 보이지 않는 벽을 세워놓고 건물을 높이 쌓아 올리는 방식으로 개발됐다면 삼성전자는 널찍한 공터를 마련해놓고 필요한 자재와 공구를 제공하며 살기 좋은 집단 주택'을 만드는 데 기여할 수 있는 전문가들을 불러 모으는 방식으로 신개념 검색엔진 개발에 뛰어든 것이다.

    장석진 삼성전자 소프트웨어센터 책임은 "케이샵 프로젝트에 참여하면 국내외 개발자 누구나 삼성전자가 공개하는 오픈소스를 활용해 자신만의 지식그래프를 만들 수 있다"면서 "동시에 개발자들의 손을 거친 새로운 소프트웨어 소스가 다시 우리 커뮤니티에 공유되면서 이런 과정이 거듭된다면 삼성 기술을 기반으로 한 소프트웨어의 외연은 한층 넓어질 것"이라고 소프트웨어 개발 선순환 생태계를 구축하게 될 수 있을 것으로 기대했다. 

    한편 삼성전자는 지난해 2월부터 소프트웨어센터를 중심으로 지식그래프 구축을 꾸준히 준비해왔다. 올 2월부터는 센터 내 오픈소스그룹이 합류하며 지식그래프의 '오픈소스화(化)'를 추진해왔다. 이번 데이터 공개는 그 첫걸음인 셈이다.

    삼성전자 소프트웨어센터는 올해 중 단계적으로 지식그래프를 구축하기 위한 솔루션과 데이터, 지식 기반 서비스를 지원하는 API(애플리케이션 프로그래밍 인터페이스) 등을 공개할 예정이다. 특히 국내에서 활용도가 높은 데이터를 링크드 데이터(Linked Data)로 구축하는 등 삼성전자의 소프트웨어 역량을 강화해 나갈 계획이다.