데이터 분석 중 중요한 것 중 하나는 데이터의 관계를 알아보는 것이다. 앞선 포스트에서는 데이터의 패턴에 대해 분석해 보았다면 이번 포스트에서는 각 품목 가격에 대한 상관관계를 알아보았다. 먼저 각 지역별로 주요 품목(커피, 불고기, 김치, 자장면, 숙박) 가격 평균을 구한 후 품목별로 산점도(scatter plot)를 그려보았다.
그래프를 살펴보면 각 품목 별로 다양한 관계성을 살펴 볼 수 있다. 커피와 불고기는 약하지만 음의 상관 관계를 갖고 있고, 김치는 다른 품목 가격이 아무리 비싸져도 김치가격은 거의 변화가 없다는 것을 알 수 있다.
(커피와 불고기의 음의 상관관계는 데이터의 missing으로 인한 것으로 판단됨)
한가지 관심 있게 본 품목은 커피와 자장면 가격이다. 뚜렷하지는 않지만 자장면 가격이 오를수록 커피 가격도 비싼 경향이 보인다. (노란색 표시)
실제로 두 품목에 대한 상관관계가 0.534로 강하지는 않지만 어느 정도의 양의 상관관계를 갖고 있다는 것을 알 수 있다. 하지만 회귀분석을 통해 예측모형으로서 수용할만한 수준인지 알아본 결과 R-squre값(모형 정확도)이 30%로 적합하지는 않았다.
모형으로서는 설명력이 부족했으나 커피와 자장면 사이에 분명히 양의 상관관계가 존재하고, 데이터가 각 지역구 별 평균이기 때문에 어느 정도의 인과관계가 존재할 것으로 판단이 되었다. 이를 알아 보기 위해 버블차트를 활용하여 각 지역구 라벨과 해당 품목 점포수를 Merge 하여 살펴보았다.
위의 버블차트를
살펴보면 커피와 자장면의 가격차이는 지역 차이라는 것을 알 수 있다. 부동산 가격이 비싸고 상권이 생긴지
상대적으로 얼마 안된 지역(강남구,서초구, 용산구)이 비싸다는 것을 알 수 있다.
뻔한 결과 일 수도 있지만 유독 커피와 자장면 사이에 좀더 높은 양의 상관관계를 보인 것은 사람들이 제일 많이 찾는 품목이기 때문이라
생각한다.
수요가 많기
때문에 그 지역의 특성(지역 주민 또는 유동인구의 구매력, 임대료, 인구특성 등)을 다른 품목보다 많이 반영하게 되고, 각 Factor를 골고루 반영하여 가격이 형성 되었을 것이다. 이렇게 형성된 가격은 그 지역의 물가를 나타내는 하나의 지표가 될 수 있다.
사실 정말 큰 규모의 회사가 아닌 이상 벤더사에 외치는 빅데이터를 보유하고 있는 회사는 별로 없다. (아직 국내 몇몇 대기업을 제외하고는 아직 빅데이터를 분석할 의지도 의미도 갖고 있지 않다고 생각한다.)
앞으로 데이터 양이 늘어날 것은 분명하다. 중요한 것은 벤더사에서 떠드는 기술, 제품이 아니다. 빅데이터 안에서 가치 있는 정보를 볼 수 있는 능력이다.
이 능력은 교육을 수강한다고, 자격증을 취득한다고 느는 것이 아니라고 생각한다. 여러 분야의 데이터를 분석해보고 그 분야의 해박한 지식이 있어야 데이터를 활용 할 줄 알게 된다.
-Post by Namyoun @Nambong84 팔로우하기


오오오 굿~^^
답글삭제