데이터 분석 16

머신러닝-딥러닝 용어

1. 데이터 준비 클래스 불균형 (class imbalance) 클래스가 불균형하게 분포되어 있는 것을 의미한다. 주로 특이한 경우(은행 거래 사기, 희귀 질병, 기계 불량음 등)가 포함된 데이터에서 볼 수 있으며, 이러한 문제들을 이상 탐지(anomaly detection)라고 부른다. 불균형 문제는 모델 학습에 매우 부정적인 영향을 기친다. 과소표집/과대표집 (Under/Over sampling) 과소표집은 다른 클래스에 비해 상대적으로 많이 나타나 있는 클래스의 개수를 줄이는 것. 이를 통해 균형은 유지할 수 있지만, 유용한 정보가 제거될 수 있다. 과대표집은 데이터를 복제하는 것. 무작위로 하거나, 기준을 정해서 복제한다. 정보를 잃지 않기 때문에 학습용 데이터에서 높은 성능을 보이지만 실험용 데..

딥러닝 개요

딥러닝 기계학습의 한 방법으로, 자료를 컴퓨터가 처리 가능한 형태인 방향과 크기를 가진 벡터나, 연결 관계가 있는 그래프 형태로 표현하고 이를 학습하는 모델을 구축하는 연구 분야이다. 높은 수준의 추상화가 이루어지며, 큰 틀에서는 사람의 사고방식을 컴퓨터에게 가르치는 것이라고 말할 수 있다. 딥러닝이 이루어지는 심층 신경망(Deep Neural Network)에서는 인공 신경망이 여러 층으로 연결되어 있다. 입력 층, 숨겨진 층, 출력 층으로 이루어져 있고 입력 층에서 받아들인 값을 이용해 숨겨진 층에서 연산이 이루어지고 결과 값이 출력 층으로 나온다. 참고: http://computing.or.kr/14569/deep-learning%EB%94%A5%EB%9F%AC%EB%8B%9D/ Deep Learn..

다항회귀분석

두 변수 같의 관계를 직선보다는 곡선으로 설명하는 것이 적합할 때가 있다. 다항 함수를 사용하면 보다 복잡한 곡선 형태의 회귀선을 표현할 수 있다. 다항회귀분석(polynomial regression)은 2차 함수 이사으이 다항 함수를 이용하여 두 변수 같의 선형관계를 설명하는 알고리즘이다. 예를 들면, 2차함수는 종속 변수 Y와 독립 변수 X 사이의 관계를 Y = aX^2 + bX + c 로 펴시하여 설명한다. 다항회귀분석 모형은 학습을 통해 3개의 계수 a, b, c 를 찾아서 모형을 완성한다. 모형 학습 및 검증 sklearn 라이브러리에서 선형회귀분석을 위한 LinearRegression() 함수와 다항식 변환을 위한 PolynomialFeatures() 함수를 불러온다. 그리고 polynomia..

단순회귀분석

어떤 변수(독립 변수)가 다른 변수(종속 변수)에 영향을 준다면 두 변수 사이에 선형 관계가 있다고 한다. 이와 같은 선형관계를 알고 싶다면 새로운 독립 변수값이 주어졌을 때 거기에 대응되는 종속 변수 값을 예측할 수 있다. 이처럼 두 변수 사이에 일대일로 대응되는 확률적, 통계적 상관성을 찾는 알고리즘을 단순회귀분석(simple linear regression)이라고 한다. 대표적인 지도학습 유형이다. 수학적으로는 종속 변수 Y와 독립 변수 X 사이의 관계를 Y = aX + b 로 나타낸다. 단순회귀 알고리즘은 훈련 데이터를 이용하여 직선의 기울기(a)와 직선이 y축과 교차하는 지점인 y절편(b)을 반복 학습을 통해 찾는다. 다시 말해 변수 X와 Y에 대한 정보를 가지고, 일차 방정식의 계수 a, b를..

회귀분석

회귀분석(regression analysis) 회귀분석은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법이다. 즉, 종속변수와 독립변수의 관계식을 추론하여 두 변수 간의 인과관계를 파악/예측하는 것이 회귀분석의 목적이다. 가격, 매출, 주가, 환율, 수량 등 연속적인 값을 갖는 연속 변수를 예측하는데 주로 활용될 수 있다. 회귀분석 검토사항 용어 정리 더보기 1. 귀무가설(=영가설) - 실험이나 관찰을 통해서 기각하고 싶은 기존의 가설. - 측정된 값들은 회귀식으로 설명할 수 없다. - 독립변수는 종속변수에 영향을 주지 않는다. 2. 대립가설(=연구가설) - 실험이나 관찰을 통해서 주장하고 싶은 새로운 이론. - 측정된 값들은 회귀식으로 설명할 수 있다. - 독..

머신러닝 개요

머신러닝이란? 기계(컴퓨터 알고리즘) 스스로 데이터를 학습하여 서로 다른 변수 같의 관계를 찾아 나가는 과정이라고 정의할 수 있다. 해결하려는 문제에 따라 예측(prediction), 분류(calssfication), 군집(clustering) 알고리즘 등으로 분류된다. 지도 학습 vs 비지도 학습 머신러닝은 크게 두 가지 유형으로 분류한다. 정답 데이터를 다른 데이터와 함께 컴퓨터 알고리즘에 입력하는 방식을 지도 학습(supervised learning)이라고 하고, 정답 데이터 없이 컴퓨터 알고리즘 스스로 데이터로부터 숨은 패턴을 찾아내는 방식을 비지도 학습(unsupervised learning) 이라고 한다. 구분 지도 학습 비지도 학습 알고리즘 (분석모형) - 회귀분석(선형, 로지스틱) - 분류..