01. 빅데이터
▶ 빅데이터의 정의
기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다.
데이터 분석의 관점으로는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐이다.
▶ 빅데이터가 만들어 내는 본질적인 변화
1. 사전처리 → 사후처리
- 정해진 특정한 정보만 수집하는 것이 아닌 많은 데이터를 모으고 그 데이터를 분석하여 숨은 정보를 찾아낸다.
2. 표본조사 → 전수조사
- 데이터 수집비용이 더 이상 문제가 되지 않으며 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격히 감소.
- 전수조사는 표본조사가 주지 못하는 패턴이나 정보를 제공해주는 장점이 있다.
3. 질 → 양
- 데이터의 수가 증가함에 따라 사소한 몇 개의 오류(이상치)가 대세에 영향을 주지 못함.
4. 인과관계 → 상관관계
- 인과관계 분석은 데이터를 얻는데 드는 비용이 매우 비싼 모델
- 비즈니스 상황에서는 특정 현상 발생 가능성이 포착, 상응하는 행동을 하도록 추천하는 일이 빈번하기 때문에 상관관계 분석으로 충분함.
▶ 빅데이터가 가치를 만들어내는 방식
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신
<빅데이터 보고서(2011), 맥킨지>
• 빅데이터가 가치를 만들어 내는 방식은 투명성 제고로 연구개발 및 관리 효율성이 제고되고 시물레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력이 강화됨.
• 고객 세분화 및 맞춤 서비스를 제공하며 알고리즘을 활용하여 의사결정을 보조 혹은 대체하며 비즈니스 모델과 제품 , 서비스의 혁신 등이 있음.
• 빅데이터의 가치 창출 방식이 시장에 있는 기업 , 정부 , 소비자에게 미치는 영향은 다양하게 나타남.
빅데이터 가치 산정이 어려운 이유
• 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용했는지 알 수 없다.
• 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다.
• 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 새로운 가치를 만들어 낼 가능성이 있다.
▶ 빅데이터 활용 테크닉
- 연관 규칙 학습(association rule learning): 어떤 변수간에 주목할만한 상관관계가 있는지 찾아내는 방법
- 유형분석(classification tree analysis): 사건이 속하게 될 범주를 찾아내는 일
- 유전 알고리즘(genetic algorithm): 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 선택
- 기계학습(machine learning): 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일
- 회귀분석(regression analysis): 독립변수와 종속변수의 변화를 파악하여 두 변수의 관계를 파악
- 감정분석(sentiment analysis): 특정 주제에 대해 말하거나 글을 쓴 사람의 감정 분석
- SNS 분석: 사회관계망분석. 오피니언 리더(영향력이 있는 사람)을 찾아낼 수 있으면 고객들 간 사회적 관계 파악
▶ 위기와 통제
위기요인 |
통제방안 | |
사생활 침해 | 특정 데이터가 본래 목적 외에 처리되어 2차, 3차 목적으로 활용될 가능성이 증가. | 동의 → 책임 개인정보 사용자에게 책임을 지게 함. |
책임 원칙의 훼손 | 잠재적 위험사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높음. | 결과기반으로 기존의 책임원칙 고수,강화 |
데이터의 오용 | 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음. | 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증 방안을 도입 |
비식별화와 익명 데이터
데이터 사용에 있어서 위기를 방지하기 위한 방법이다.
비식별화
- 데이터셋에서 개인을 식별할 수 있는 요소들의 전부 혹은 일부를 삭제하거나 대체하는 과정.
익명 데이터
- 정보 수집단계에서 근원적으로 개인을 식별할 수 없는 형태로 수집한 정보
가명처리
- 개인정보 중 주요 식별요소를 다른 값으로 대체하여 식별할 수 없게 함
- 예) 유재석, 46세, 서울 강남구 거주 >>> 홍길동, 40대, 서울 거주
총계처리(aggregation) 또는 평균값 대체(replacement)
- 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함
- 예) 유재석 176cm, 강호동 182 cm, 신동엽 175 cm, 김구라 184 cm >>> MC 키 합 717 cm, 평균 179 cm
데이터 값(가치) 삭제
- 개인 식별에 중요한 값 삭제
- 예) 유재석, 46세, 서울 강남구 거주 >>> 46세, 서울 강남구 거주
범주화
- 데이터의 값을 범주의 값으로 변경
- 예) 유재석, 46세 >>> 유씨, 45~49세
데이터 마스킹
- 개인 식별 가능성이 높은 주요 식별자가 보이지 않게 처리
- 예) 유재석, 46세, 서울 강남구 거주 >>> 유**, 2*세, 서울 거주