요즘 우리 주변에서 아주 자주 듣는 화두가 바로 4차 산업혁명과 인공지능 그리고 빅데이터 라는 말이다. 4차 산업혁명이란 인공지능이나 로봇 등의 다양한 기술들을 융합하여 새로운 가치를 만들어 내는 것으로 요약할 수 있는데 이렇게 되기 위해서는 빅데이터가 필수이다. 즉 인공지능이 정상적으로 동작하려면 아주 많은 데이터들을 모아서 분석해야만 가능하다는 뜻이다.
그래서 이번 호부터 빅데이터를 수집하고 분석하는 내용으로 연재를 하려고 한다
연재 순서는 아래와 같다.
 

1. 빅데이터 분석용 프로그램 ( R ) 소개
2. R 프로그램 설치와 패키지 관리
3. R을 활용한 텍스트 마이닝 분석 작업
4. R과 지도를 활용한 데이터 분석
5. R의 다양한 시각화 소개 - ggplot2 기능과 다양한 구글차트
6. R을 활용한 통계분석

 

위의 내용으로 R을 모두 알 수 있는 것은 아니지만 R이 어떤 프로그램이며 어떤 분석에 활용될 수 있는지 알 수 있을 것이다.
만약 R에 대한 더 자세한 내용이 궁금하다면 [R라뷰 - 서진수 저] 책을 참고하기 바란다.

 

R 프로그램이란 
R이라는 프로그램은 1990년대 뉴질랜드 오클랜드 대학의 Ross Ihaka와 Robert Gentleman 에 의해 시작된 데이터 분석용 프로그램이다. 두 사람 모두 통계학과 관련된 사람들이기에 R 프로그램은 초기에는 통계 작업용 프로그램으로 시작했다.
그런데 그 이후 수 많은 사람들이 이 프로젝트에 동참하면서 각 자의 능력을 발휘해 새로운 기능을 만들어서 추가 했고 (새로운 기능을 패키지라고 부른다) 2017년 9월 기준으로 약 1만 1,000개 정도가 있으며 이 패키지들은 지금도 계속 만들어지고 있다.
기존에 통계 분석용 프로그램으로 유명한 제품들로는 SPSS, SAS, MATHLAB 등이 있으며 사무용으로도 많이 사용되고 있는 EXCEL 프로그램도 데이터 분석용으로 많이 사용되고 있다.
그런데 이런 프로그램들은 비용도 고가이고 무엇보다 정형(표 형태 )데이터들을 위주로 사용할 수 있다는 단점이 있다. 예를 들어서 인터넷 쇼핑몰의 A라는 제품에 달린 댓글들을 수집해서 주로 많이 언급되는 키워드를 분석하고 싶다고 했을 때 이 프로그램들은 한계가 있다.
그러나 R이라는 프로그램은 정형 데이터들도 잘 분석할 수 있지만 비정형(댓글, 사진, 영상, 소리 등) 데이터도 잘 분석할 수 있다. 아래 그림은 R 프로그램을 사용하여 비정형 형태의 텍스트 데이터를 분석하여 만든 결과물들이다.
아래 그림 외에도 R로 할 수 있는 다양한 분석들이 아주 많다. 본격적인 이야기는 다음 회부터 시작하기로 한다.

 


 

저작권자 © 스타트업투데이(STARTUPTODAY) 무단전재 및 재배포 금지