글로벌 빅테크 기업, 생성형 AI 공격적 투자↑
생성 AI 개발 업체, 합성 데이터 활용에 ‘주목’
“글로벌 잠식 안 되려면 정부 지원 지속돼야” 목소리도
[스타트업투데이] 인공지능 챗봇 ‘챗GPT’ 등장이후 전 세계가 ‘생성형 AI’ 열풍에 빠졌다.
지난 24일 시장조사기관 그랜드뷰리서치(Grand View Research)에 따르면, 지난해 101억달러(약 13조 원) 수준이었던 전세계 생성형 AI 시장 규모는 연평균 34.6% 성장해 2030년에는 1,093억 달러(약 142조 원)까지 급성장할 것으로 전망된다.
생성형 AI는 AI 기술의 한 분야로, 텍스트, 이미지, 음악 같은 새로운 콘텐츠를 생성하는 데 중점을 둔 AI 모델 혹은 AI 응용프로그램이다. 생성형 AI 모델은 대규모 데이터 세트를 활용해 학습을 거친 후, 기계학습 알고리즘을 사용해 학습 데이터와 유사한 새로운 콘텐츠를 생성한다.
최근 구글·마이크로소프트(MS) 등 글로벌 빅테크가 시장을 선점해 나가는 가운데, ‘AI 주권’을 뺏기지 않으려는 국내 기업들의 노력도 치열한 것으로 보인다. 이들은 서로 경쟁적으로 ‘한국어’가 강점인 초거대 AI를 개발해 서비스에 접목하고 있으며, AI 성능 개선 및 비용 효율화를 위해 속도를 내고 있다.
국내·외 빅테크 기업, 생성형 AI 적극 투자에 나서
국내에서는 삼성·LG 등 주요 기업을 시작으로 플랫폼 기업, 통신사, 스타트업에 이르기까지 초거대 AI 개발과 고도화에 집중하고 있다.
지난 19일 LG는 기존 모델보다 학습 데이터 양을 4배 이상 늘린 ‘엑사원(EXAONE) 2.0’을 공개했다. 네이버는 다음달 ‘하이퍼클로바’(HyperCLOVA)의 업그레이드 버전인 ‘하이퍼클로바X’와 대화형 에이전트인 ‘클로바X’ 베타 서비스를 함께 선보인다. 이어 KT는 올해 3분기 말 초거대 AI ‘믿음’을, 카카오는 올 하반기 중 한국어 특화 초거대 AI 모델 ‘코GPT 2.0’을 공개할 예정이다.
이와 같이 국내 기업들이 최근 AI 모델 및 서비스 개발에 속도를 내는 배경에는 ‘구글, 마이크로소프트(MS) 등 미국 빅테크에 밀릴 수 있다’는 위기감이 깔려 있다. 특히 구글·MS·메타 등 글로벌 빅테크의 생성형 AI 서비스 출시가 잇따르며 ‘생성형AI가 스마트폰 이상의 시장 변화를 일으킬 것’이라는 전망도 제기된다.
실제로 구글은 기사를 생성하는 AI 도구인 ‘제네시스’(Genesis)를 개발해 활용방안을 강구하고 있다. 특히 뉴욕타임스와 워싱턴포스트 및 월스트리트저널 등 유력 매체와 협력해 테스트를 진행하고 있어 이목을 끈다.
이어 애플은 챗GPT나 구글 바드 같은 대규모 언어 모델(LLM) 서비스와 경쟁하기 위해 자체 생성형 AI 도구를 만들고 있는 것으로 나타났다. 애플의 시장 점유율이 높아지고 있는 상황에서 애플이 강력한 결과를 전달하면서도 개인정보보호 기능을 내장한 LLM 서비스를 선보인다면, 애플은 기업 직원들이 쓸 수 있는 도구를 제공할 수 있게 될 것으로 전망된다.
이 가운데, 업계 일각에서는 생성형 AI의 활용 범위 확장을 통한 수익화 가능 여부 등을 면밀히 따져야 한다는 목소리가 나온다. 유사한 기능을 가진 서비스가 난립하면 자칫 소비자가 분산될 수 있기 때문이다.
또 현재 생성형 AI의 활용처가 대부분 기업 간 거래(B2B)에 초점이 맞춰져 있는 것도 아쉬운 대목으로 꼽힌다. 이 때문에 자사 서비스 외 활용처 개발 등을 통한 차별화 전략을 모색해야 한다는 의견도 있다.
생성AI 개발 업체, ‘합성 데이터’ 주목…정부 지원 필요성↑
최근 거대언어모델(LLM) 훈련에 필요한 대규모 데이터를 확보하려는 생성AI 업체들 움직임이 분주한 가운데, 컴퓨터가 생성한 합성 데이터(Synthetic Data)에 대한 관심이 고조되고 있다.
특히 LLM 개발 업체들은 모델 훈련에 필요한 데이터 확보 일환으로 웹에서 긁어온 데이터나 사람이 생생한 데이터를 넘어 ‘합성 데이터 활용’을 주목하고 있다.
대표적으로 마이크로소프트, 오픈AI, 코히어 같은 회사들이 대규모 언어모델(LLM) 개발에 합성 데이터 사용을 테스트하고 있다. 현재 오픈AI 챗GPT나 구글 바드 같은 챗봇에 투입된 LLM은 주로 인터넷에서 긁어온 데이터 기반으로 훈련된다. 이들 LLM 훈련에 내용 된 데이터는 디지털화된 책, 뉴스 기사, 블로그, 검색 쿼리, 트위터 및 레딧 포스트, 유튜브 비디오와 플리커 이미지 등을 포함하고 있다.
무엇보다 생성AI 훈련에 필요한 고품질 데이터를 확보하는 비용이 만만치 않다는 점도 AI 회사들이 합성 데이터로 눈을 돌리는 요인으로 꼽힌다. 생성AI 성능을 지금보다 크게 끌어 올리려면 양질의 데이터셋이 필수이기 때문이다.
이에 따라 ‘합성 데이터’를 주특기로 하는 스타트업들도 나오고 있다. 실제로 스케일AI와 그레텔AI와 같은 기업들은 이미 서비스형 합성 데이터를 제공 중이다. 참고로 그레텔의 경우, 미국 국가안보국(NSA)와 중앙정보국(CIA) 출신 정보 애널리스트들이 설립한 곳으로 구글, HSBC, 라이엇게임즈, 일루미나 등과 협력하고 있다.
일각에서는 모든 합성 데이터가 현실 데이터를 개선하거나 반영하도록 신중하게 큐레이션되지는 않을 것이라는 지적도 있다. 또 AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고, 시간이 지나면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다는 가능성도 제기됐다.
한편, 한국IDC의 ‘국내 인공지능 분석 시장 전망’에 따르면, 국내 AI 시장은 향후 5년간 연평균 성장률 14.9%를 기록하며 2027년까지 4조 4,636억 원 규모에 이를 전망이다. 다양한 산업에서 AI 채택을 가속화하면서 디지털 기술과 산업 기술이 융합된 인공지능 생태계가 강화되고, 여러 서비스 사업 혁신이 동시에 이루어지면서 해당 시장 성장을 견인한 것으로 나타났다.
업계 전문가들은 “향후 더욱 많은 기업들이 AI 관련 전문지식을 확보하기 위한 투자를 이어감에 따라 성장 추세가 지속될 것”이라며 “AI는 우리나라 미래를 좌우할 수 있는 만큼, 정부의 지속적인 지원이 필요하다”고 밝혔다.
[스타트업투데이=권아영 기자] news@startuptoday.kr
