티스토리 뷰
1. 데이터와 정보
- 데이터 정의
- 데이터에 숨겨진 의미를 발견하고, 이를 바탕으로 의사결정에 활용할 수 있는 인사이트를 도출하는 일련의 과정
- 정보의 정의
- 정보는 데이터를 목적에 맞게 가공한 결과물
- 현상 -관찰·측정→ 데이터 -처리·가공→ 정보
2. 데이터 분석의 개념
- 데이터에 숨겨진 의미를 발견하고, 이를 바탕으로 의사결정에 활용할 수 있는 인사이트를 도출하는 일련의 과정
- 데이터를 정리·처리·변환하여 유의미한 정보를 도출
- 데이터를 구조화하고 패턴을 파악하며, 특정 현상의 원인을 찾거나 미래를 예측하기 위한 논리적이고 체계적인 접근
- 데이터에 감춰진 가치와 인사이트를 발견
- 의사결정의 질 향상 및 비즈니스 문제의 근본 원인 파악
- 데이터 품질 문제, 데이터의 규모와 복잡성, 적절한 분석 방법론 선택, 분석 결과 해석과 커뮤니케이션, 데이터 윤리와 개인정보 보호 등 다양한 도전 과제가 존재
3. 데이터 분석의 4단계
- 아래의 4단계를 통해 하인드사이트 → 인사이트 → 포사이트로 나아감
- 설명적 분석
- 어떤 일이 일어났는가
- 과거의 데이터를 통해 왜 이런 결과가 만들어졌는지 원인 분석
- 진단적 분석
- 왜 일어났는가
- 원인 파악
- 예측척 분석
- 무슨 일이 일어날 것인가
- 처방적 분석
- 무엇을 해야할 것인가
4. 데이터 분석 적용 사례: PHM
- 장비나 시스템의 상태를 실시간으로 감시하고, 고장 가능성을 예측하여 최적의 유지보수 및 관리 방안을 제공
- PHM의 5단계
- 계측
- 자동차에서 발생하는 다양한 데이터 수집
- 모니터링( 설명적 분석 단계 )
- 정상 범위를 벗어나는 이상 징후 탐지
- 진단( 진단적 분석 단계 )
- 구체적인 고장의 원인과 영향분석
- 예측( 예측척 분석 단계 )
- 진단 정보를 바탕으로 향후 고장 가능성 판단
- 개선( 처방적 분석 단계 )
- 최적의 개선책과 유지보수 전략 결정
- 계측
5. 데이터 분석 적용 사례
- 개인 맞춤형 마케팅
- 전자상거래에서 스포츠 브랜드 신제품 추천
- 금융
- 은행의 대출 프로세스 자동화
- 스포츠
- 오클랜드 애슬레틱스 ‘머니볼 전략’
- 공공 정책
- 코로나19 대응 정책, 백신 계획
- 운영
- 제조업의 스마트 팩토리
- 의료
- 암 환자 맞춤형 치료법 개발
- 도시 행정 및 치안
- 교통 신호 체계 설계, 치안 개선
6. 데이터 분석의 발전 과정
- 전통적 통계 분석( 1900 )
- 확률론과 가설 검정 기법을 이용
- 데이터를 해석하는 방식
- 데이터베이스와 BI 활용(1980)
- DBMS를 도입
- 구조화된 데이터 분석 방식 전환
- 시각적으로 표현하는 BI 도구 도입
- 빅데이터와 ML의 발전(2000)
- 데이터의 규모와 다양성이 증가
- 오픈소스 프레임워크 개발
- 맞춤형 마케팅 수행
- 현재~미래(2005)
- 실시간 데이터 수집 및 분석
- 즉각적인 의사결정 시스템을 구축
7. 데이터 분석과 데이터 과학
| 항목 | 데이터 분석 | 데이터 과학 |
| 개념 | 수집된 데이터를 정리·가공하여 의미 있는 정보를 도출하는 과정 | 예측 모델을 만들고, 자동화된 의사결정 시스템을 구축하는 포괄적 과정 |
| 접근 방식 | 통계, 데이터 시각화, 기본적인 머신러닝 등을 활용 | 통계, 머신러닝, 컴퓨터 프로그래밍, 데이터 엔지니어링 등을 종합적으로 활용 |
| 목적 | 데이터 기반 의사결정 지원이 중심 | 의사결정의 자동화 및 최적화 |
| 범위 | 데이터 과학의 한 부분 | 데이터 분석을 포함하는 상위 개념 |
| 과정 | 데이터수집→ 전처리→ EDA→분석→ 시각화→ 인사이트도출 | 데이터 수집 → 전처리 → 분석 → 자동화 시스템 구현 |
| 분야 | 마케팅, 리포트 작성, 경영 전략 수립 등 | 제품 추천, 예측 시스템, 자율주행, 인공지능 서비스 등 |
8. 데이터 분석 과정
- 데이터를 적절한 방법으로 수집하고 정제한 후, 패턴을 탐색하고 모델링을 수행하여 결과를 해석하는 체계적인 접근이 필요
- 구분
- 데이터 수집 및 저장
- 수집 대상 데이터 정의
- 데이터 수집 경로 선정
- 데이터 수집 자동화
- 데이터 저장 방식 선택
- 데이터 전처리
- 결측치와 이상치 처리
- 중복 데이터 제거 및 필터링
- 데이터 축소 및 변환
- 데이터 분석
- 탐색적 데이터 분석 수행
- 분석 계획 수립
- 데이터 분석 기법 선택
- 데이터 분석 결과 도출
- 데이터 시각화
- 기초 통계량 시각화
- 데이터 유형별 시각화
- 시각화 도구 활용
- 데이터 수집 및 저장
9. 데이터 수집 및 저장 단계
- 단순히 데이터를 모으는 것이 아니라, 수집한 데이터를 효율적으로 보관하고, 분석 목적에 적합한지 검토
- 데이터 수집 과정
- 데이터 분석 목표를 기반으로 데이터 수집 목적 설정
- 데이터 출처 결정
- 내부 데이터
- 기업이나 기관 내부에서 생성된 데이터
- 외부 데이터
- 정부의 공공 데이터, 소셜 미디어 데이터, 연구 기관의 통계 자료 등 기관 외부에서 제공하는 데이터
- 내부 데이터
- 데이터 수집 방법 결정
- 파일 다운로드, 데이터베이스, 웹 스크래핑, API, 센서(IoT)
10. 데이터 전처리 단계
- 데이터를 정리하고 변환하여 분석이 가능하도록 가공하는 과정
- 구분
- 데이터 측정 : 전체적인 분포와 특성을 파악
- 데이터 정제 : 결측치, 이상치및 불일치 값 제거
- 데이터 통합 : 여러 출처의 데이터를 하나의 데이터셋으로 결합
- 데이터 축소 : 군집화, 샘플링 등 데이터 크기 감소
- 데이터 변환 : 정규화, 표준화등 분석에 적합한 형태로 변환
11. 데이터 분석 단계
- 통계 기법, 데이터 간의 관계 파악, 예측 모델 구축 등의 데이터 분석 기법 적용
- EDA
- 데이터의 분포와 특성을 이해하기 위한 과정
- 데이터를 요약하고 시각적으로 표현
- 주요 패턴과 이상치 파악, 변수 간 관계 분석
- 통계 분석
- 평균, 중앙값, 표준편차 등 기본 기술 통계
- 가설 검정, 상관 분석, 회귀 분석 등 통계 기법 활용
- 데이터에서 발견된 패턴의 통계적 유의성 검증
- 머신 러닝 및 딥러닝
- 과거 데이터를 학습하여 미래 예측이나 데이터 분류
- 자동화된 의사결정 모델 구축
- 복잡한 패턴을 발견 및 대규모 데이터에서 인사이트 도출
12. 데이터 시각화 단계
- 데이터셋의 정보와 관계를 그래프, 차트, 다이어그램 등의 시각적 요소를 활용하여 직관적으로 표현
- 데이터 시각화의 역할
- 데이터 탐색과 패턴 발견
- 복잡한 데이터의 요약
- 데이터 분석 결과 전달
13. 데이터의 속성에 분류
- 데이터
- 질적 데이터(범주형 데이터)
- 명목형 데이터
- 순서형 데이터
- 양적 데이터(수치형 데이터)
- 이산형 데이터
- 연속형 데이터
- 질적 데이터(범주형 데이터)
14. 데이터 형태에 따른 분류
- 정형 데이터 ( structured data )
- 일정한 규칙과 구조를 갖춘 데이터
- 행과 열로 구성된 표 형태로 관계형 데이터베이스에 저장
- 비정형 데이터 ( unstructured data )
- 정해진 구조 없이 자유로운 형태로 존재하는 데이터
- 문장, 이미지, 영상, 음성 등 다양한 형식
- 분석이 어려운 반면 소비자 감정 및 행동 패턴 등 많은 정보량
- 반정형 데이터 ( semi-structured data )
- 정형 데이터와 비정형 데이터의 중간 형태
- 데이터 항목 간 일정한 규칙이나 구조가 존재하나, 완전히 테이블 형태로 고정 불가능
15. 오픈소스의 개념
- 인류의 지적 자산( 소스코드와 데이터 )을 개방함으로써 더 많은 사람들과 함께 공유하고 협력하겠다는 철학
- 1960년대 미국 대학가의 반문화 운동과 해커 문화에서 시작되어 "정보는 자유로워야 한다"는 신념으로 발전
- 오픈 철학의 확장
- 소스코드가 공개되어 누구나 자유롭게 접근, 사용, 복제, 수정, 재배포할 수 있는 소프트웨어 분야
- MIT OCW, MOOC 등 대학 강의를 무료로 공개
- 정부와 공공기관이 보유한 데이터를 시민들에게 공개
16. 리처드 스톨먼
- 컴퓨터 과학자이자 소프트웨어 자유론의 강한 지지자
- 자유 소프트웨어 운동의 중심 역할 및 오픈소스 소프트웨어 초석 마련
- GNU 프로젝트 시작
- 자유 소프트웨어 재단(FSF) 설립
- GNU 시작의 계기
- 유닉스 라이센스 비용은 카피당 $99( 소스코드 포함 )에서 $250,000로 올림
- PDP-10에 설치할 DEC사의 OS 사용에 복사 뿐만 아니라 자료 또한 유출하지 않겠다는 NDA를 요구
17. FSF의 확장
- 에릭 레이몬드의 1997년 에세이 '성당과 시장'
- FSF에서 또 다른 분수령
- 두 방식의 개발 모델
- 성당
- 핵심 그룹이 개발을 수행하는 독점적 SW 개발에서 전형적으로 나타나는 폐쇄적 하향식 접근 방식
- 시장
- 네트워크를 통해 무료로 공유되는 개방적 공개 개발 방식
- 성당
- Open Source Initiative( OSI ) 설립의시초
18. 지속 가능 모델인가?
- 성공적 OSS 개발을 위해 개발자의 지속 참여 필수
- 기업의 관점
- OSS는 개발 비용을 외부화, 초기 개발 비용을 감소
- 기업의 코드 공개가 다른 개발자의 코드 공개를 유도할 수 있으므로, 기업은 직간접적으로 OSS 개발에 참여
- 개인의 관점
- 내재적 동기
- 취미 생활로서, 수정 사항 공유 및 선물하는 즐거움
- 내가 도운 대로 상대방도 도울 것이라는 일반화된 호혜성
- 외재적 동기
- OSS 개발자로서의 명성은 노동 시장에서 신호 효과유도
- 내재적 동기
19. 파이썬과 오픈소스 환경
- 오픈소스 철학을 기반으로 설계되고 발전해온 언어
- 언어 자체와 이를 둘러싼 수많은 라이브러리, 프레임워크, 커뮤니티 활동이 모두 오픈소스 방식으로 운영
- 개발 환경
- IDLE : 기본 제공되는 개발 환경
- JupyterNotebook : 코드를 블록(셀) 단위로 실행
- 구글 Colab : 별도 설치 없이 웹 브라우저에서 바로 사용
- Selenium, lxml, Pandas, statsmodels, Matplotlib, Seaborn, Scikit-learn 등 다양한 오픈소스 라이브러리 사용 가능
20. 정리하기
- 데이터 분석은 데이터를 정리·처리·변환하여 유의미한 정보를 도출하는 과정이다.
- 데이터 분석은 인사이트와 가치 창출, 비효율적 프로세스 개선, 사회적 문제 해결 데이터 기반 의사결정을 가능하게 한다.
- 데이터 분석의 3요소는 컴퓨터과학, 도메인 지식, 통계 및 수학이다.
- 데이터는 속성, 형태에 따라 다양하게 분류되며 그에 따른 분석 방법이 필요하다.
- 오픈소스는 소스코드나 데이터가 공개되어 누구나 자유롭게 접근, 사용, 수정, 재배포할 수 있다.
- 파이썬 프로그래밍 환경은 IDLE, JupyterNotebook, Google Colab을 등이 있다.
- 데이터 분석에 필요한 파이썬 패키지는 Selenium, lxml, NumPy, Pandas, Statsmodels, Matplotlib, Seaborn, Scikit-learn 등 오픈소스 라이브러리가 있다.
728x90
댓글