티스토리 뷰

bigdata, data analysis

빅데이터 개념 및 주요 특징

빅데이터는 대규모의 정형 또는 비정형 데이터 집합에서 가치를 추출하고 분석하는 기술을 의미합니다. 빅 데이터의 '3V'라는 개념이 있는데, 볼륨, 속도, 다양성이란 특징을 반영하는 말입니다. 첫째, 볼륨(Volume)입니다. 빅 데이터에는 소셜 미디어, 센서, 온라인 거래 등과 같은 다양한 소스에서 생성된 대량의 데이터가 포함됩니다. 둘째, 속도(Velocity)입니다. 데이터는 빠른 속도로 생성 및 수집되므로 실시간 또는 거의 실시간에 가까운 처리 및 분석이 필요합니다. 셋째, 다양성입니다. 빅 데이터는 구조화(관계형 데이터베이스), 반구조화(XML, JSON), 비구조화(텍스트, 이미지, 비디오) 등 다양한 형식으로 제공됩니다. 빅데이터는 우리가 매일 사용하는 컴퓨터나 핸드폰, 다양한 기계 센터에서 나오는 방대한 제타바이트급 데이터로 구성되어 있으며, 이를 통해 조직이 의사결정을 내리고 프로세스와 정책을 향상하며 고객 중심의 제품과 서비스, 경험을 구축하는 데 사용됩니다. 빅데이터 분석은 인공지능, 센서, 통신 등의 기술이 발전하면서 혁신적인 비즈니스 솔루션으로 주목받고 있으며, 데이터의 정확성과 신뢰성, 그리고 효율적인 관리와 처리를 통해 조직의 경쟁력을 강화하는 데 기여합니다.


빅데이터 분석에 필요한 기술

빅 데이터 분석에는 여러 단계와 기술이 포함됩니다. 먼저 데이터 수집을 합니다. 기존 데이터베이스, 소셜 미디어, 센서, 로그 등을 포함한 다양한 소스에서 데이터를 수집합니다.
그다음 수집한 데이터를 데이터 스토리지에 담습니다. 데이터 레이크 또는 클라우드 기반 솔루션과 같은 분산되고 확장 가능한 스토리지 시스템에 데이터를 저장하고 관리합니다. 그리고 데이터 처리를 합니다. 원시형태의 데이터를 분석에 활용할 수 있도록 전처리하여 데이터를 변환합니다. 여기에는 데이터 정리, 필터링 및 구조화가 포함될 수 있습니다. 그 후 데이터 분석을 합니다. 통계 분석, 기계 학습, 데이터 마이닝, 예측 모델링 등 다양한 분석 기술을 적용하여 데이터 내의 패턴, 상관관계, 추세 및 통찰력을 찾아냅니다. 분석과 더불어 데이터 시각화를 합니다. 분석된 데이터를 차트, 그래프, 대시보드, 대화형 시각화 등의 시각적 형식으로 제시하여 이해와 의사결정을 용이하게 합니다. 마지막으로 의사 결정을 하는 과정입니다. 빅 데이터 분석에서 얻은 통찰력을 사용하여 정보에 입각한 비즈니스 결정을 내리고, 프로세스를 최적화하고, 효율성을 향상하고, 혁신을 주도합니다. 특히 이중 데이터 스토리지 분야의 성장이 두드러집니다. 예전에는 기업에서 데이터는 빠른 속도로 증가하고 있고 RDMS는 분석을 위해 그만큼의 데이터를 처리할 능력이 없었고 그 결과 몇 년 이상 된 데이터는 점점 더 보관되어 기업에서 사용되지 못했습니다. 그러다 하둡이 나와서 빅 데이터를 처리하고 처리할 수 있는 아키텍처를 제공했습니다. 데이터 처리 속도 테라바이트에 데이터가 있고 이를 기반으로 보고서가 작성된다고 가정할 때 RDMS에 존재하는 원시 데이터에 비즈니스 로직을 구현하고 거대한 데이터를 처리해야 하는데 하둡이 이 문제를 해결해 주었습니다. 즉 RDBMS에 비해 매우 짧은 시간에 많은 데이터를 처리할 수 있습니다. 기업들은 오라클, DB2, MySQL 등 서로 다른 데이터베이스를 사용하고 있는데 하둡을 이용하면 HDFS라는 한 곳에 모든 데이터를 넣을 수 있다는 장점이 있습니다.

 

빅데이터 응용 분야

빅데이터 분석의 응용 분야는 다양한 산업과 영역에 걸쳐 있습니다. 비즈니스 및 마케팅 분야에서는 고객 행동, 선호도, 구매 패턴을 분석하여 마케팅 캠페인을 최적화하고, 제품을 개인화하며, 고객 경험을 향상합니다. 예를 들자면, 쇼핑몰이나 식료품점에 가면 우유나 빵 같은 특정 제품이 근처에 보관되어 있는 것을 볼 수 있습니다. 왜냐하면 우유를 사는 거의 모든 고객이 빵 봉지를 사는 경향이 있다는 것을 관찰할 수 있기 때문입니다. 그래서 여기에 고객들이 다른 상점에서 수집한 데이터를 사용하여 빵과 우유를 함께 사는 경향이 있다는 패턴이나 추세가 확립된 것이며 이것이 빅 데이터의 작동 방식입니다. 또 의료분야에서 환자 데이터 및 의료 기록을 분석하여 진단, 치료 및 환자 결과를 개선합니다. 사기 행위를 탐지하고 위험을 평가하며 시장 동향과 경제 지표를 기반으로 투자 결정을 내립니다. 그리고 에너지 및 유틸리티 측면에서 에너지 그리드의 센서 데이터를 분석하여 에너지 분배를 최적화하고 수요를 관리하며 효율성을 향상합니다. 빅 데이터 분석은 조직에 귀중한 통찰력을 얻고, 데이터 기반 결정을 내리며, 성장과 혁신을 위한 새로운 기회를 열 수 있는 잠재력을 제공합니다. 크고 복잡한 데이터 세트로 인해 발생하는 문제를 효과적으로 처리하려면 전문 도구, 기술 및 전문 지식이 필요합니다.