공부/A.I.

데이터 사이언스 기본 개념

AiHo 2021. 7. 14. 23:20

데이터 사이언스에 기본 개념에 대해서 공부했다

데이터 사이언스란

데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다.

쉽게 말하자면 도메인 지식, 수학, 컴퓨터 과학의 교집합이라고 볼 수 있다.

데이터 사이언스에 필요한 역량

  1. 비판적인 사고
  2. →자신의 주장을 데이터로 뒷받침해야 하기 때문에 혹시라도 데이터에 오류가 있다면 자신의 주장도 오류가 생기는 것이기 때문이다.
  3. 숫자 기반의 사고
  4. → 직관에 의해서 판단하기 보다는 숫자를 확인하는 사고 방식을 가져야한다. 수치기반의 사고

데이터 사이언스를 둘러싼 보안과 윤리 문제

  1. 개인 정보 이슈
  2. → 데이터 분석에 특성상 데이터에 대한 많은 권한이 생긴다. 하지만 이를 무분별하게 남용한다면 남들의 개인 정보에 접근 할 수 있기 때문에 조심해야한다.
  3. 크롤링 등 법적이슈
  4. → 데이터 확보를 위한 무분별한 크롤링은 저작권 침해와 업무방해죄 침해의 소지가 있으므로 정보를 제공하는 api를 사용하자. 크롤링하면 많은 트래픽이 발생함으로 사이트의 마비를 일으킬수있다.

데이터 사이언스에 관한 많은 궁금증들

  1. 관련 전공
  • 컴퓨터 공학
  • 소프트웨어 공학
  • 산업 및 시스템공학
  • 수학
  • 통계학
  • ...

2)관련 대학원

  • AI 대학원
  • Big Data MBA
  • 통계학 석/박사
  • 해외 온라인 석사(조지아텍, 미시건, UIUC 등)
  1. 공부하면 좋은 것
  • 분석 도구(R, python, SQL (CRUD중에 R이 제일 중요))
  • 분석 기법(통계학, 머신러닝)
  • 도메인 지식(현업지식)

데이터 분석 프로세스

데이터 분석은

  1. 기획
  2. 데이터 수집
  3. 분석
  4. 보고

순의 순환되는 절차를 가진다.

기획

  • 문제 정의: 어떤 문제를 해결할 것인가?
  • → 이를 확실히 하지 않는다면 데이터의 활용범위는 무궁무진 하기 때문에 길을 잃기 쉽다.
  • 분석 방법론 정의
    1. 기술 통계 분석
    2. 가설 검정
    3. 예측 모델 개발

데이터 수집

  • 담당 부서로부터 데이터 입수
  • 데이터 탐색, 오류 검토(중요)

분석

  • 데이터 가공: 데이터 탐색 및 전처리 (업무의 대부분)
  • 기술 통계 분석 - 집단 간 비교, 시계열 비교
  • 가설 검정 - 가설 지지 확인
  • 예측 모형 개발, 고도화

보고

  • 일반 사용자들이 보기 쉽게 표, 그래프 제작
  • 보고서 작성 - 문서화, 대시보드 개발

다음에 공부할 것

→ 프로젝트로 배우는 데이터 사이언스