본문 바로가기
자격증/자격증 공부, 후기

ADsP 데이터 분석 준 전문가 공부할 때 정리한 헷갈리는 것들

by 밤이_ 2024. 6. 1.
반응형

안녕하세요.

아래 내용은 제가 시험을 보기 전에 헷갈리거나, 외우지 못한 외워야 하는 것들을 정리한 내용입니다.

 

저만 알아보게 적었을 수도 있지만...? 그래도 아래 내용에서 꽤 많은 문제가 출제되니 시험 전에 여러번 읽어 보시면 도움이 될거라고 생각합니다.

1과목

  • DB 종류 분류
    • RDB - oracle, mysql, ms-sql, mariaDB, Derby, SQlite
    • NoSQL - CouchDB, MongoDB, ElasticSearch, Cloudant, Dynamo, Redis, Riak, Coherence, SimpleDB, Bigtable Cassandra, HBase, HyperTable
  • 암묵지와 형식지
    • 암묵지는 머리에 있는 지식, 형식지는 외부로 표출되어 공유할수 있는 지식
    • 암묵지 → (표출화) → 형식지 → (내면화) → 암묵지
  • Data Scientist 의 필요 역량
    • 데이터 이해, 분석론 지식, 비지니스 요소 초첨 및 커뮤니케이션, 협력, 창의력
    • 데이터베이스 모델링은 아님
    • 분석적 / 비지니스 / IT 영역 3개로 구분 가능
  • DIKW
    • data 의미가 중요하지 않은 객관적 사실
      • 객관적 사실을 의미하는 당위적 특성 xxx
      • 단순한 객체로써 보다 다른 객체와 상호관계에서의 의미가 중요
    • information
    • knowledge
    • wisdom : 공유하기 어려운 자료, 지혜
  • 반정형, 비정형 데이터
    • 반정형 : 정해진 형태는 있지만 연산이 불가능
    • 비정형 데이터 : 완전 비정형
  • 데이터마트, 웨어하우스
    • 데이터 웨어하우스 : 분산된 환경의 데이터를 의사결정을 위해 공통의 형식으로 변환해 관리
    • 데이터 마트 : 웨어하우스에서 추출한 작은 데이터베이스, 목적달성에 필요한 데이터 제공
  • DBMS
    • 계층형
    • 네트워크형 :복잡한 그물형태, 구조 변경 어려움
    • 분산형 : 분산된 여러개의 DB를 하나로
    • 객체지향 : 사용자의 정의하는 타입을 하나의 데이터 유형으로 저장. 비정형 데티어도 표현 가능
  • 빅데이터의 필요 3요소
    • 데이터 기술 인력 (프로세스 xx)
  • 빅데이터분석의 경제적효과는 클라우드 컴퓨팅이 큰 영향
  • 데이터 베이스는 정성, 정량적 데이터 모두 사용 가능
  • 데이터 크기 순위
    • PB < EB < ZB < YB
  • 빅데이터의 특징 3V
    • Volumn, Velocity, Variety
  • 빅데이터의 위기
    • SNS 여행 게시물 보고 빈집에 강도
    • 관광서 위장 기관 링크는 아님
  • 각종 용어들
    • DB 설계 : 요구사항 분석 - 개념 - 논리 - 물리설계
    • 데이터마이닝 : 대용량 데이터에서 의미잇는 관계 규칙등을 찾는것
    • BI : 데이터기반 의사결정 지원하는 리포트 도구
    • Business Analystics : 의사결정위한 수학, 통계적 기법
    • ITS : Intelligent Transport system, 지능형 교통 시스템
    • EAI : Enterprise Applicatgion Integration
    • 가명 처리 : 식별 가능 데이터를 식별 불가능하게 변환
    • 데이터 마스킹 : 데이터 형식은 유지하고 알수 없는 다른 문자로 대체
    • 알고리즈미스트 : 인공지능으로 인한 부당피해를 방지하거나 구제하는 업무
    • 하둡 : 분산처리를 위해 key-value 쌍으로, 여러 컴퓨터를 하나처럼
  • 데이터 모델링 : 데이터 포인트 간의 연결 및 관계 이해하기 위해 시각화로 표현하는
  • SQL
    • DDL : 정의언어, CREAT
    • DML 조작언어 SELECT UPDATE DELETE

2과목

  • 분석 기획시 고려사항
    • 가용 데이터 고려
    • 적절한 활용 방안, 유스케이스 탐색
    • 장애요소에 대한 사전계획 수립
  • 분석 준비도의 구성요소
    • 문화,데이터, 인프라, 기법 업무 ,인력및조직
  • 마스터플랜 우선순위 선정 절차
    • 과제 도출 - 우선순위 평가 - 우선순위 정렬
  • 방법론 생성 과정
    • 암묵지 → (형식화) → 형식지 → (체계화) → 방법론 → (내재화) → 암묵지
  • 분석 방법론의 구성요소
    • 상세한 절차, 도구와 기법, 방법, 템플릿과 산출물
    • 분석모델은 아님 xx
  • CRISP-DM
    • 업무이해 - 데이터이해 - 데이터준비 - 모델링 - 평가 - 전개
      • 평가에서 문제가 생겼을때 처음으로
      • 업무이해와 데이터이해 피드백 가능
  • 빅데이터 분석 프로세스
    • 분석기획 : 비지니스이해-수행계획-위험식별
    • 데이터준비 : 필요데이터정의-스토어설계-수집검정
    • 데이터분석 : 분석데이터준비-분석-모델링-평가검증
      • 데이터 준비와 분석이 피드백을 주고 받음
    • 시스템구현 : 설계구현 - 테스트 운영
    • 평가전개 : 발전계획-평가보고
  • 분석과제탐색발굴방법
    • 하향식 : 문제가 주어졌을떄 해결할 과제가 무엇인지 찾는 전통적 top-down 체계적 단계화
      • 분석 대상을 알고 있다면
    • 상향식 : 데이터 조합에서 인사이트를 찾는 bottom-up
      • 분석 대상을 모른다면
  • 분석대상 / 분석 방법
    • KK 최적화 UK 통찰
    • KU 솔루션 UU 탐색
    • 하향식 상향식
  • 분석과제 정의서
    • 분석과제발굴이 끝난 뒤 작성 후 분석 프로젝트 관리
    • 소스 데이터, 분석 방법, 데이터 입수 및 분석 난이도 작성, 성공여부판별하는 기준
  • 데이터 거버넌스 구성요소
    • 원칙, 조직, 프로세스
  • 데이터 거버넌스 체계
    • 데이터 표준화
    • 데이터 관리 체계
      • 정합성 효율성을 위해 메타데이터와 데이터 사전 관리 원칙 수립, 프로세스 생성, 역할 책임,
      • 데이터 생명주기 관리 방안
    • 데이터 저장소관리
      • 메타데이터, 표준데이터 관리하기 위한 저장소 구성
      • 관리 체계 지원을 위한 workflow, software 지원, 인터페이스 통한 통제
      • 데이터 구조 변경에 따른 사전 영향 평가 수행
    • 표준화 활동
      • 체계를 구축한 후 모니터링
      • 안정적 정착을 위한 교육, 개선
    • 데이터 거버넌스는 데이터 관리를 위함
  • 분석 거버넌스의 구성요소
    • 과제 기획 및 운영 프로세스
    • 분석 시스템
    • 데이터
    • 분석 기획 및 관리 수행 조직
    • 분석 교육
  • 분석 성숙도
    • 도입 : 분석 실행, 일부부서, 담당자의존, 데이터, olap
    • 활용 : 미래결과예측, 시뮬, 전담 부서, 분석기법, 대시보드, 통계분석 환경
    • 확산 : 전사적 차원, 빅데이터 관리 환경
    • 최적화 : 혁신 및 성과에 기여, 외부환경분석, 최적화, 실시간분석, 비즈니스 진화, Ds그룹, 경영진, 전략연계, 분석환경 내제화
  • 준비 정착 도입, 확산 (준비도, 성숙도)
    • LL, LH, HL, HH
    • (기술은 있는데 준비가 안됐으면 정착)
    • 준비는 됐는데 기술이 없으면 도입
  • 비즈니스 모델 캔버스 9개중 채널은
    • 고객에게 value proposition 전달, 평가 가능하게
    • AS 제공
    • 유통 서비스은 아님
  • 비즈니스 모델 캔버스 5가지
    • 규제와 감사, 업무, 제품, 고객, 지원인프라
    • 인력은 아님!!
  • 각종 용어들
    • ISP (정보전략계획) : 정보시스템을 전략적으로 활용하기위해, 내외부 환경 분석하고 기회 문제점 도출등
    • CMMI : 개인, 조직의 프로세스별 수준을 5단계로 나타낸 역량 성숙도 평가 모델 (성숙도 통합 모델, Capability maturity model integration)
      1. 개인의 역량이 프로젝트 성공 실패를 나눔, 개발 프로세스 없음
      2. 일정 비용과 같은 요소가 중심. 약간 프로세스있음
      3. 조직 관리하는 프로세스 존재
      4. 체계적인 관리하에
      5. 최적화된 프로세스 보유, 개선
    • CMM : CMMI 에서 소프트웨어 개발 프로세스만
    • SPICE : 6단계로 나눈것
    • ISO-9000 : 국제 품질보증으로 인증/불인증 2개
    • 프레이밍 효과 : 같은 결과를 해석하는 두 사람이 다른 결과를 도출하는 현상
    • WBS : 업무 분업 구조
    • IDEO 디자인 씽킹 : 문제발견/솔루션제시, 더블다이아몬드 ,상향 하향 반복
    • 스탠퍼드 d.school 디자인 씽킹 : 비지니스와 기술 인간중심 사고가 만난 방법-

3과목

  • 대치법 코드
    • 단순대치법 copy_colleage[complete,..]
    • 평균대치법 mean…
    • 단순확률대치법 knn : knnImputation
    • 다중대치법 : amelia(copy..)
  • 척도 종류
    • 질적척도
      • 명목척도 : 측정대상이 어느집단에 속하는지 | 성별지역
      • 순서(서열)척도 : 명목척도 이면서 서열관계를 갖는 | 선호도 신용도 학년
    • 양적척도
      • 구간(등간)척도 : 속성의 양을 측정할수있으며 구간 사이에 의미 있음 사칙연산 xx | 온도 지수
      • 비율척도 : 구간척도면서 절대적기준0이 있고 사칙연산이 가능 | 신창 무게 점수 가격
  • 이산확률분포
    • 베르누이분포 : 확률변수x가 취할수 있는 값이 두개인 경우,확률이 p 분포
    • 이항분포 : n번의 베르누이시행해서 k번 성공할확률
    • 기하분포 : 처음으로 성공할때까지 k번 실패할 확률
    • 다항분포 : n번의 3개이상의 결과 가지는 경우 확률 분포
    • 포아송분포 : 단위 시간 공간에서 발생할수 있는 사건의 발생횟수에 대한 분포
    • 이산확률변수 : 확률변수가 취할수 있는 실수값의 수를 셀수 있는 변수
  • 연속확률분포
    • 균일분포 : 같은 확률
    • 정규분포
    • T분포 : 자유도가 n인 t분포, 평균이0, 두꺼운 꼬리, t가 커질수록 정규분포처럼됨
    • 카이제곱분포 : 정규분포의 확률변수 z들의 합 x, 모평균 모분산 모르는 두집간의 동질성검정, 모분산 검정
    • F 분포 : 카이제곱분포를 따르는, 자유도 분포
  • 첨도 : 3에 가까울수록 정규분포, 크면 높이 솟음
  • 왜도 : 비대 칭정도, 0이면 정규분포
    • 음수면 오른쪽이 올라가고, 평균<중앙<최빈
    • 양수면 왼쪽이 올라가고, 최빈<중앙<평균
  • 일 표본 t검정
    • 단측 : 범위, less, greater 표시필요
    • 양측 : ~다 / ~아니다, 기본값
  • 분산분석
    • aov(연속~범주) / anova 는 회귀모형 분산분석용도
    • 기본 귀무가설은 차이가 없다
  • 상관분석
    • 피어슨 : 등간 / 비율척도 (양적)
    • 스피어만 : 서열척도 (질적)
    • 명목척도는 불가능
  • 회귀분석의 가정
    • 선형성, 독립성, 등분산성, 정규성
  • R-squared = 설명성
    • 다중회귀는 Adjusted R-squared 를 봐야함
  • 다중공산성
    • R^2은 커서 1에 가깝지만, p-value가 커서 개별인자가 유의하지 않을떄
    • 독립변수간의 상관관계 구해서 확인
    • VIF = (1/1-r2) > 10 이면 다중공산성 있음 (분산팽창요인)
  • 주성분분석(PCA)
    • 손실이 적도록 분산이 가장 큰 축을 선택
    • 상관관계가 있는 변수들을 선형결합해 상관없는변수로 만드는 방법
    • 공분산 행렬을 사용하는 경우 고유값이 1보다 큰 주성분수를 사용
    • 공분산 행렬을 사용할 경우, 측정 단위에 민감
    • 공분산 행렬은 다변수 데이터에서 변수들간의 관계를 표현한 표
    • 비어 있다고 아에 영향이 없진 않음. 매우 적을뿐
  • 시계열의 정상성
    • 일정한 평균 → 안될경우 차분 (lag)
    • 일정한 분산 → 안될경우 변환
  • AR 자기 회귀
    • 직전 몇개의 시점으로 에측가능하다
    • pacf → 파란색 안쪽으로 가기 전까지 AR(x)
  • MA 이동평균
    • 평균과 백색잡음의 합
    • acf →1에서 파란색 안으로 가기 전까지
  • 오즈 (odds)
    • 성공 확률이 실패 확률의 몇배인지
    • 4번성공 1번 실패 = 4
  • 로짓변환 : log(odds)
  • 로지스틱 회귀 : 종속은 범주형
  • 의사결정나무
    • 종속변수가 이산형(범주형) : 분류트리 사용, 카이제곱검정 지니지수 엔트로피지수
    • 종속변수가 연속형 : 회귀트리, F통계량 분산감소량
  • 인공신경망
    • 포화문제 : 역전파에 의한 가중치 수정중, 가중치 절댓값이 커져서 과소적합이 일어나는 경우
  • 벡터의 형식 : 문자>숫자>논리>NULL
  • LGBM : leaf wise 방식
  • lasso / lidge
    • lasso 는 절대값, lidge 는 제곱의 차
    • 자동으로 변수를 선택하는 효과, 람다값으로 패널티 조정
  • 확률분포 종류
    • 이산형 : 이항분포 / 기하분포 / 포아송분포
    • 연속형 : 지수분포 / 정규분포
  • 자료의 형태
    • 명목척도 : 라벨링, 남자1 여자2 이런거
    • 서열척도 : 기말고사 1,2,3등… 이런거, 스피어만 상관계수 (순위 사이의 관계)
    • 등간척도 : 상대적 비교, A는2점 B는5점 C는1점
    • 비율척도 : 영점이 존재하고 사칙연산 가능
  • 비모수적 방법 (정규분포를 따르지 않는 것, 혹은 표본이 적어서 그럴지도)
    • 부호검정 : 표본의 분포가 동일한지
    • 부호순위검정 : 표본의 중앙점이 동일한지
    • 평균, 분산 이런거 안씀!
  • 검정의 종류
    • T검정 : 가설검정, 모집단의 평균값을 특정값과 비교 (~보다 크다 ~보다 작다, P-value 나오는 그거)
    • F 검정 : 표본의 분산의 차이 검정
  • 가설검정
    • 2개 이상 독립 변수 : 이원분산분석
  • 변수선택에 사용되는 성능지표 (벌점화 방식)
    • AIC : MSE에 변수 수만큼 벌점, 표본이 커질때 부정확
    • BIC : 변수의 개수가 많을수록 더 크게 패널티, 개수 적은 모형을 하곘다면 이거
  • 분위수 상한 하한값
    • Q1-1.5IQR / Q3 +1.5IQR
    • IQR = Q3-Q1
  • 표본 추출 방법
    • 랜덤
    • 계통추출 : N칸씩 띄어서 추출
    • 집락(cluster)추출 : 데이터를 집락으로 구분한뒤, 랜덤 추출 (3-1,2-1,1-1반 / 3-2,2-2,1-2,반)
    • 층화추출법 : 데이터를 집락으로 구분하지만, 각 집락끼리는 이질적인 데이터 (1학년/2학년/3학년)
  • 의사결정나무의 분리 기준
    • 이산형
      • CHAID 카이제곱 통계량
      • CART 지니지수
      • C4.5 엔트로피 지수
    • 연속형
      • CHAID ANOVA F-통계량
      • CART 분산감소량
  • 연관분석의 알고리즘
    • apriori : 가능한 모든 수를 탐색
      • 최소 지지도 설정 - 최소보다 큰 지지도를 갖는 품목 선별 - 찾은것중 2가지 품목으로 생기는 연관규칙중 최소 지지도 확인 - 반복
      • 품목이 증가할수록 시간과 복잡도가 급증
    • FP-Growth
      • 지지도가 낮은것부터 높은것으로 올라가는 상향식
      • 속도 빠르고 연산 저렴
  • 연관분석의 측도
    • 향상도 : a를 삿을떄 b를 살 가능성
      • a 가 없을떄 b를 구매할확률 /대비/ a가 구매될때 b가 구매될 확률
      • P(A&B) / P(A)P(B) → P(A)는 A를 구매하는 모든 과정, 여러개 구매하는것도 포함
    • 지지도: 전체 거래중, a,b 둘다 사는 경우
      • a,b 두개가 동시에 포함된 거래 비율, A&B / 전체
    • 신뢰도 P(A&B)/P(A) : A 삿을때 B를 추가로 살 확률 → 1보다 작으면 안살수 있음
  • 공분산
    • 상관 정도
    • 범위는 -inf ~ inf
    • 변수사이 관계의 강도는 알수 없음
    • 선형관계 측정, 관계 사이의 방향을 알수 있다.
  • 평가지표
    • 민감도 = 재현율 = Sensitive = Recall
      • 실제 True 중에 True 를 맞게 찾은 비율
      • TP / (TP + FN)
    • 특이도 Specificity
      • 실제 False 중에 False를 맞게 찾은 비율
      • TN / (TN + FP)
    • 정밀도 Precision
      • 예측 True 중에 올바르게 True 를 찾아낸 비율
      • TP / (TP+FP)
    • F1 = 2PR / (P+R)
  • 가설검증
    • 귀무가설은 모집단에 대한 특징, ~와 같다로 정의
    • 대응표본 t 검정은 두 집단의 크기가 같다
    • 절차
      • 가설설정
      • 유의수준 결정 (0.01, 0.05, …)
      • 검정방법 결정
      • 검정 통계량 계산 (P-value)
      • 유의수준 > p-value → 귀무가설 기각 / 대립가설 채택
      • 유의수준 < p-value → 귀무가설 채택
  • 실루엣 계수
    • 군집분석의 평가지표
    • 응집도와 분리도를 계산하여, 1에 가까울수록 완벽하게 분리됨
    • 1 ~ 1범위
  • SOM 자기조직화지도
    • 가장 가까운 노드 선택, cloest Node
    • 군집분석 / 분류분석아님!!!
    • 경쟁층에 도달해더라도, 다른 노드로 이동 가능
  • 결측값 처리법???
    • 단순대치법 : 결측이 있으면 삭제 / 데이터가 적거나 결측이 많으면 데이터손실
    • 평균대치법
      • 조건부 평균 대치 : 회귀분석 이용한 평균
      • 비조건부 평균 대치
    • 단순확률대치 : 오차를 줄이기 위해 knn사용
    • 다중대치법 : 여러번의 대치, 대치 분석 결합 반복
  • 1종/2종 오류
    • 귀무가설이 맞는데 틀렷다고 하는것
    • 귀무가설이 틀렸는데 맞다고 하는것
  • 검정 방법
    • 일 표본T : ~보다 크다 / ~보다 작다
    • 이 표본T : 같은지 다른지
    • 카이제곱 검정 : 범주형의 관계/교차분석
  • 분산분석
    • 회귀분석 결과 확인용
    • 두개 이상 집단의 평균을 비교 하기 위한 가설검정. 3개 이상 집단이면 재검정 필요
  • 상관계수 계산식 = 공분산/(표준편차*표준편차)
  • 유의수준 (P VALUE)
    • p value가 작으면, 그 일이 일어날 확률이 작으므로 귀무가설 기각임
    • p value가 크면 귀무가설
    • 작으면 통계적 의미가 있음
  • R은 string을 [3:4] 이런식으로 뽑을 수 없음
  • R은 stirng 을 [[1]] 이렇게 하면 원본 나옴
  • R코드에서
    • type = n → none, 아무것도 안나옴
    • type = p → 기본값 산점도, 점으로
    • type = l → 선으로
    • type = b → 점과 선 모두
    • hclust 의 기본값은 compltte, 최장거리법
    • summary는 기존 데이터대로, transform은 새로운 열 추가
    • scale = t 는 분산을 1로 / center = t 는 평균을 0으로
    • 회귀분석에서, 종속변수 (y) ~ 독립변수 (x)
  • 표준화값 = x - m / 정규분포 → 음수도 됨
  • 표본조사 - 모집단을 특정할 수 없을떄 / 평균 분산을 모르니 가정 x
  • EM 알고리즘
    • 초기 모수값 - 기댓값 - 최대가능도 검사 - 새로운 모수값 - 최대가능도도달하면 멈춤
  • 다중회귀모형은 그냥 R이 아닌 Adjusted R 로 평가
  • 랜덤 포레스트는 변수의 차원을 랜덤하게 감소
  • 시가 거리 =연속형 / 코사인 자카도 단순일치계수는 범주형
  • 체비셰프거리 = max (거리들)
  • ROC커브
    • x 는 1-특이도
    • y 는 민감도
  • 기하분포 : 처음 발생할때까지 해야하는 횟수
  • 이익도표 : 분류분석의 모형을 평가하기 위한 방법, 랜덤모델에 비해 모델의 성과가 얼마나 좋은지
  • 부트스트랩 무한히 하면, 36.8% 안나옴
  • 연관분석은 IF~THEN~으로 나옴 (순차 패턴도 이럼)
  • 다차원 척도법
    • STRESS 값은 0에 가까울수록 적합이 잘됨을 뜻함
    • 서열척도면 비계량적 방법
    • 데이터가 비율, 구간척도면 유클리디안 거리 확률 가능
  • 단어의 어원을 찾는것은 스태밍,
  • 자기회귀누적이동평균모형 ARIMA (p,d,q) - AR모형차수/정상화필요차분/MA모형 차수
  • K평균군집 - 제곱합 그래프를 통해 K 찾음
  • 최소제곱방법은 회귀분석에서 회귀계수 찾는 방법
  • 유의성 판단은 P_VALUE임
  • p-value : 귀무가설을 기각할때 그 결정이 잘못되었을 확률
  • p value 가 작으면, 될 확률이 적어서 기각함
  • ESD 이상치 판단, 표준편차 3 이상 떨어진 것들 판단
  • 최소제곱법 : 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위해 잔차의 제곱합이 최소가 되는 회귀식 찾는 방법
  • 결정계수 : 회귀분석에서, 종속변수가 독립변수로 설명되는 비율.
    • SUM SQ_x / ( SUM SQ_x + SUM SQ_residuals)
  • 수정된 결정계수 : 변수가 많아질때 조정, 차이가 없다고 독립은 아님
  • 부분자기상관함수 : 현재시점과 시차n만큼 떨어진 시점에서 값의 상관계수 계산할때, 두 지점 사이에 존재하는 영향 제거
반응형