반응형
안녕하세요.
아래 내용은 제가 시험을 보기 전에 헷갈리거나, 외우지 못한 외워야 하는 것들을 정리한 내용입니다.
저만 알아보게 적었을 수도 있지만...? 그래도 아래 내용에서 꽤 많은 문제가 출제되니 시험 전에 여러번 읽어 보시면 도움이 될거라고 생각합니다.
1과목
- DB 종류 분류
- RDB - oracle, mysql, ms-sql, mariaDB, Derby, SQlite
- NoSQL - CouchDB, MongoDB, ElasticSearch, Cloudant, Dynamo, Redis, Riak, Coherence, SimpleDB, Bigtable Cassandra, HBase, HyperTable
- 암묵지와 형식지
- 암묵지는 머리에 있는 지식, 형식지는 외부로 표출되어 공유할수 있는 지식
- 암묵지 → (표출화) → 형식지 → (내면화) → 암묵지
- Data Scientist 의 필요 역량
- 데이터 이해, 분석론 지식, 비지니스 요소 초첨 및 커뮤니케이션, 협력, 창의력
- 데이터베이스 모델링은 아님
- 분석적 / 비지니스 / IT 영역 3개로 구분 가능
- DIKW
- data 의미가 중요하지 않은 객관적 사실
- 객관적 사실을 의미하는 당위적 특성 xxx
- 단순한 객체로써 보다 다른 객체와 상호관계에서의 의미가 중요
- information
- knowledge
- wisdom : 공유하기 어려운 자료, 지혜
- data 의미가 중요하지 않은 객관적 사실
- 반정형, 비정형 데이터
- 반정형 : 정해진 형태는 있지만 연산이 불가능
- 비정형 데이터 : 완전 비정형
- 데이터마트, 웨어하우스
- 데이터 웨어하우스 : 분산된 환경의 데이터를 의사결정을 위해 공통의 형식으로 변환해 관리
- 데이터 마트 : 웨어하우스에서 추출한 작은 데이터베이스, 목적달성에 필요한 데이터 제공
- DBMS
- 계층형
- 네트워크형 :복잡한 그물형태, 구조 변경 어려움
- 분산형 : 분산된 여러개의 DB를 하나로
- 객체지향 : 사용자의 정의하는 타입을 하나의 데이터 유형으로 저장. 비정형 데티어도 표현 가능
- 빅데이터의 필요 3요소
- 데이터 기술 인력 (프로세스 xx)
- 빅데이터분석의 경제적효과는 클라우드 컴퓨팅이 큰 영향
- 데이터 베이스는 정성, 정량적 데이터 모두 사용 가능
- 데이터 크기 순위
- PB < EB < ZB < YB
- 빅데이터의 특징 3V
- Volumn, Velocity, Variety
- 빅데이터의 위기
- SNS 여행 게시물 보고 빈집에 강도
- 관광서 위장 기관 링크는 아님
- 각종 용어들
- DB 설계 : 요구사항 분석 - 개념 - 논리 - 물리설계
- 데이터마이닝 : 대용량 데이터에서 의미잇는 관계 규칙등을 찾는것
- BI : 데이터기반 의사결정 지원하는 리포트 도구
- Business Analystics : 의사결정위한 수학, 통계적 기법
- ITS : Intelligent Transport system, 지능형 교통 시스템
- EAI : Enterprise Applicatgion Integration
- 가명 처리 : 식별 가능 데이터를 식별 불가능하게 변환
- 데이터 마스킹 : 데이터 형식은 유지하고 알수 없는 다른 문자로 대체
- 알고리즈미스트 : 인공지능으로 인한 부당피해를 방지하거나 구제하는 업무
- 하둡 : 분산처리를 위해 key-value 쌍으로, 여러 컴퓨터를 하나처럼
- 데이터 모델링 : 데이터 포인트 간의 연결 및 관계 이해하기 위해 시각화로 표현하는
- SQL
- DDL : 정의언어, CREAT
- DML 조작언어 SELECT UPDATE DELETE
2과목
- 분석 기획시 고려사항
- 가용 데이터 고려
- 적절한 활용 방안, 유스케이스 탐색
- 장애요소에 대한 사전계획 수립
- 분석 준비도의 구성요소
- 문화,데이터, 인프라, 기법 업무 ,인력및조직
- 마스터플랜 우선순위 선정 절차
- 과제 도출 - 우선순위 평가 - 우선순위 정렬
- 방법론 생성 과정
- 암묵지 → (형식화) → 형식지 → (체계화) → 방법론 → (내재화) → 암묵지
- 분석 방법론의 구성요소
- 상세한 절차, 도구와 기법, 방법, 템플릿과 산출물
- 분석모델은 아님 xx
- CRISP-DM
- 업무이해 - 데이터이해 - 데이터준비 - 모델링 - 평가 - 전개
- 평가에서 문제가 생겼을때 처음으로
- 업무이해와 데이터이해 피드백 가능
- 업무이해 - 데이터이해 - 데이터준비 - 모델링 - 평가 - 전개
- 빅데이터 분석 프로세스
- 분석기획 : 비지니스이해-수행계획-위험식별
- 데이터준비 : 필요데이터정의-스토어설계-수집검정
- 데이터분석 : 분석데이터준비-분석-모델링-평가검증
- 데이터 준비와 분석이 피드백을 주고 받음
- 시스템구현 : 설계구현 - 테스트 운영
- 평가전개 : 발전계획-평가보고
- 분석과제탐색발굴방법
- 하향식 : 문제가 주어졌을떄 해결할 과제가 무엇인지 찾는 전통적 top-down 체계적 단계화
- 분석 대상을 알고 있다면
- 상향식 : 데이터 조합에서 인사이트를 찾는 bottom-up
- 분석 대상을 모른다면
- 하향식 : 문제가 주어졌을떄 해결할 과제가 무엇인지 찾는 전통적 top-down 체계적 단계화
- 분석대상 / 분석 방법
- KK 최적화 UK 통찰
- KU 솔루션 UU 탐색
- 하향식 상향식
- 분석과제 정의서
- 분석과제발굴이 끝난 뒤 작성 후 분석 프로젝트 관리
- 소스 데이터, 분석 방법, 데이터 입수 및 분석 난이도 작성, 성공여부판별하는 기준
- 데이터 거버넌스 구성요소
- 원칙, 조직, 프로세스
- 데이터 거버넌스 체계
- 데이터 표준화
- 데이터 관리 체계
- 정합성 효율성을 위해 메타데이터와 데이터 사전 관리 원칙 수립, 프로세스 생성, 역할 책임,
- 데이터 생명주기 관리 방안
- 데이터 저장소관리
- 메타데이터, 표준데이터 관리하기 위한 저장소 구성
- 관리 체계 지원을 위한 workflow, software 지원, 인터페이스 통한 통제
- 데이터 구조 변경에 따른 사전 영향 평가 수행
- 표준화 활동
- 체계를 구축한 후 모니터링
- 안정적 정착을 위한 교육, 개선
- 데이터 거버넌스는 데이터 관리를 위함
- 분석 거버넌스의 구성요소
- 과제 기획 및 운영 프로세스
- 분석 시스템
- 데이터
- 분석 기획 및 관리 수행 조직
- 분석 교육
- 분석 성숙도
- 도입 : 분석 실행, 일부부서, 담당자의존, 데이터, olap
- 활용 : 미래결과예측, 시뮬, 전담 부서, 분석기법, 대시보드, 통계분석 환경
- 확산 : 전사적 차원, 빅데이터 관리 환경
- 최적화 : 혁신 및 성과에 기여, 외부환경분석, 최적화, 실시간분석, 비즈니스 진화, Ds그룹, 경영진, 전략연계, 분석환경 내제화
- 준비 정착 도입, 확산 (준비도, 성숙도)
- LL, LH, HL, HH
- (기술은 있는데 준비가 안됐으면 정착)
- 준비는 됐는데 기술이 없으면 도입
- 비즈니스 모델 캔버스 9개중 채널은
- 고객에게 value proposition 전달, 평가 가능하게
- AS 제공
- 유통 서비스은 아님
- 비즈니스 모델 캔버스 5가지
- 규제와 감사, 업무, 제품, 고객, 지원인프라
- 인력은 아님!!
- 각종 용어들
- ISP (정보전략계획) : 정보시스템을 전략적으로 활용하기위해, 내외부 환경 분석하고 기회 문제점 도출등
- CMMI : 개인, 조직의 프로세스별 수준을 5단계로 나타낸 역량 성숙도 평가 모델 (성숙도 통합 모델, Capability maturity model integration)
- 개인의 역량이 프로젝트 성공 실패를 나눔, 개발 프로세스 없음
- 일정 비용과 같은 요소가 중심. 약간 프로세스있음
- 조직 관리하는 프로세스 존재
- 체계적인 관리하에
- 최적화된 프로세스 보유, 개선
- CMM : CMMI 에서 소프트웨어 개발 프로세스만
- SPICE : 6단계로 나눈것
- ISO-9000 : 국제 품질보증으로 인증/불인증 2개
- 프레이밍 효과 : 같은 결과를 해석하는 두 사람이 다른 결과를 도출하는 현상
- WBS : 업무 분업 구조
- IDEO 디자인 씽킹 : 문제발견/솔루션제시, 더블다이아몬드 ,상향 하향 반복
- 스탠퍼드 d.school 디자인 씽킹 : 비지니스와 기술 인간중심 사고가 만난 방법-
3과목
- 대치법 코드
- 단순대치법 copy_colleage[complete,..]
- 평균대치법 mean…
- 단순확률대치법 knn : knnImputation
- 다중대치법 : amelia(copy..)
- 척도 종류
- 질적척도
- 명목척도 : 측정대상이 어느집단에 속하는지 | 성별지역
- 순서(서열)척도 : 명목척도 이면서 서열관계를 갖는 | 선호도 신용도 학년
- 양적척도
- 구간(등간)척도 : 속성의 양을 측정할수있으며 구간 사이에 의미 있음 사칙연산 xx | 온도 지수
- 비율척도 : 구간척도면서 절대적기준0이 있고 사칙연산이 가능 | 신창 무게 점수 가격
- 질적척도
- 이산확률분포
- 베르누이분포 : 확률변수x가 취할수 있는 값이 두개인 경우,확률이 p 분포
- 이항분포 : n번의 베르누이시행해서 k번 성공할확률
- 기하분포 : 처음으로 성공할때까지 k번 실패할 확률
- 다항분포 : n번의 3개이상의 결과 가지는 경우 확률 분포
- 포아송분포 : 단위 시간 공간에서 발생할수 있는 사건의 발생횟수에 대한 분포
- 이산확률변수 : 확률변수가 취할수 있는 실수값의 수를 셀수 있는 변수
- 연속확률분포
- 균일분포 : 같은 확률
- 정규분포
- T분포 : 자유도가 n인 t분포, 평균이0, 두꺼운 꼬리, t가 커질수록 정규분포처럼됨
- 카이제곱분포 : 정규분포의 확률변수 z들의 합 x, 모평균 모분산 모르는 두집간의 동질성검정, 모분산 검정
- F 분포 : 카이제곱분포를 따르는, 자유도 분포
- 첨도 : 3에 가까울수록 정규분포, 크면 높이 솟음
- 왜도 : 비대 칭정도, 0이면 정규분포
- 음수면 오른쪽이 올라가고, 평균<중앙<최빈
- 양수면 왼쪽이 올라가고, 최빈<중앙<평균
- 일 표본 t검정
- 단측 : 범위, less, greater 표시필요
- 양측 : ~다 / ~아니다, 기본값
- 분산분석
- aov(연속~범주) / anova 는 회귀모형 분산분석용도
- 기본 귀무가설은 차이가 없다임
- 상관분석
- 피어슨 : 등간 / 비율척도 (양적)
- 스피어만 : 서열척도 (질적)
- 명목척도는 불가능
- 회귀분석의 가정
- 선형성, 독립성, 등분산성, 정규성
- R-squared = 설명성
- 다중회귀는 Adjusted R-squared 를 봐야함
- 다중공산성
- R^2은 커서 1에 가깝지만, p-value가 커서 개별인자가 유의하지 않을떄
- 독립변수간의 상관관계 구해서 확인
- VIF = (1/1-r2) > 10 이면 다중공산성 있음 (분산팽창요인)
- 주성분분석(PCA)
- 손실이 적도록 분산이 가장 큰 축을 선택
- 상관관계가 있는 변수들을 선형결합해 상관없는변수로 만드는 방법
- 공분산 행렬을 사용하는 경우 고유값이 1보다 큰 주성분수를 사용
- 공분산 행렬을 사용할 경우, 측정 단위에 민감
- 공분산 행렬은 다변수 데이터에서 변수들간의 관계를 표현한 표
- 비어 있다고 아에 영향이 없진 않음. 매우 적을뿐
- 시계열의 정상성
- 일정한 평균 → 안될경우 차분 (lag)
- 일정한 분산 → 안될경우 변환
- AR 자기 회귀
- 직전 몇개의 시점으로 에측가능하다
- pacf → 파란색 안쪽으로 가기 전까지 AR(x)
- MA 이동평균
- 평균과 백색잡음의 합
- acf →1에서 파란색 안으로 가기 전까지
- 오즈 (odds)
- 성공 확률이 실패 확률의 몇배인지
- 4번성공 1번 실패 = 4
- 로짓변환 : log(odds)
- 로지스틱 회귀 : 종속은 범주형
- 의사결정나무
- 종속변수가 이산형(범주형) : 분류트리 사용, 카이제곱검정 지니지수 엔트로피지수
- 종속변수가 연속형 : 회귀트리, F통계량 분산감소량
- 인공신경망
- 포화문제 : 역전파에 의한 가중치 수정중, 가중치 절댓값이 커져서 과소적합이 일어나는 경우
- 벡터의 형식 : 문자>숫자>논리>NULL
- LGBM : leaf wise 방식
- lasso / lidge
- lasso 는 절대값, lidge 는 제곱의 차
- 자동으로 변수를 선택하는 효과, 람다값으로 패널티 조정
- 확률분포 종류
- 이산형 : 이항분포 / 기하분포 / 포아송분포
- 연속형 : 지수분포 / 정규분포
- 자료의 형태
- 명목척도 : 라벨링, 남자1 여자2 이런거
- 서열척도 : 기말고사 1,2,3등… 이런거, 스피어만 상관계수 (순위 사이의 관계)
- 등간척도 : 상대적 비교, A는2점 B는5점 C는1점
- 비율척도 : 영점이 존재하고 사칙연산 가능
- 비모수적 방법 (정규분포를 따르지 않는 것, 혹은 표본이 적어서 그럴지도)
- 부호검정 : 표본의 분포가 동일한지
- 부호순위검정 : 표본의 중앙점이 동일한지
- 평균, 분산 이런거 안씀!
- 검정의 종류
- T검정 : 가설검정, 모집단의 평균값을 특정값과 비교 (~보다 크다 ~보다 작다, P-value 나오는 그거)
- F 검정 : 표본의 분산의 차이 검정
- 가설검정
- 2개 이상 독립 변수 : 이원분산분석
- 변수선택에 사용되는 성능지표 (벌점화 방식)
- AIC : MSE에 변수 수만큼 벌점, 표본이 커질때 부정확
- BIC : 변수의 개수가 많을수록 더 크게 패널티, 개수 적은 모형을 하곘다면 이거
- 분위수 상한 하한값
- Q1-1.5IQR / Q3 +1.5IQR
- IQR = Q3-Q1
- 표본 추출 방법
- 랜덤
- 계통추출 : N칸씩 띄어서 추출
- 집락(cluster)추출 : 데이터를 집락으로 구분한뒤, 랜덤 추출 (3-1,2-1,1-1반 / 3-2,2-2,1-2,반)
- 층화추출법 : 데이터를 집락으로 구분하지만, 각 집락끼리는 이질적인 데이터 (1학년/2학년/3학년)
- 의사결정나무의 분리 기준
- 이산형
- CHAID 카이제곱 통계량
- CART 지니지수
- C4.5 엔트로피 지수
- 연속형
- CHAID ANOVA F-통계량
- CART 분산감소량
- 이산형
- 연관분석의 알고리즘
- apriori : 가능한 모든 수를 탐색
- 최소 지지도 설정 - 최소보다 큰 지지도를 갖는 품목 선별 - 찾은것중 2가지 품목으로 생기는 연관규칙중 최소 지지도 확인 - 반복
- 품목이 증가할수록 시간과 복잡도가 급증
- FP-Growth
- 지지도가 낮은것부터 높은것으로 올라가는 상향식
- 속도 빠르고 연산 저렴
- apriori : 가능한 모든 수를 탐색
- 연관분석의 측도
- 향상도 : a를 삿을떄 b를 살 가능성
- a 가 없을떄 b를 구매할확률 /대비/ a가 구매될때 b가 구매될 확률
- P(A&B) / P(A)P(B) → P(A)는 A를 구매하는 모든 과정, 여러개 구매하는것도 포함
- 지지도: 전체 거래중, a,b 둘다 사는 경우
- a,b 두개가 동시에 포함된 거래 비율, A&B / 전체
- 신뢰도 P(A&B)/P(A) : A 삿을때 B를 추가로 살 확률 → 1보다 작으면 안살수 있음
- 향상도 : a를 삿을떄 b를 살 가능성
- 공분산
- 상관 정도
- 범위는 -inf ~ inf
- 변수사이 관계의 강도는 알수 없음
- 선형관계 측정, 관계 사이의 방향을 알수 있다.
- 평가지표
- 민감도 = 재현율 = Sensitive = Recall
- 실제 True 중에 True 를 맞게 찾은 비율
- TP / (TP + FN)
- 특이도 Specificity
- 실제 False 중에 False를 맞게 찾은 비율
- TN / (TN + FP)
- 정밀도 Precision
- 예측 True 중에 올바르게 True 를 찾아낸 비율
- TP / (TP+FP)
- F1 = 2PR / (P+R)
- 민감도 = 재현율 = Sensitive = Recall
- 가설검증
- 귀무가설은 모집단에 대한 특징, ~와 같다로 정의
- 대응표본 t 검정은 두 집단의 크기가 같다
- 절차
- 가설설정
- 유의수준 결정 (0.01, 0.05, …)
- 검정방법 결정
- 검정 통계량 계산 (P-value)
- 유의수준 > p-value → 귀무가설 기각 / 대립가설 채택
- 유의수준 < p-value → 귀무가설 채택
- 실루엣 계수
- 군집분석의 평가지표
- 응집도와 분리도를 계산하여, 1에 가까울수록 완벽하게 분리됨
- 1 ~ 1범위
- SOM 자기조직화지도
- 가장 가까운 노드 선택, cloest Node
- 군집분석 / 분류분석아님!!!
- 경쟁층에 도달해더라도, 다른 노드로 이동 가능
- 결측값 처리법???
- 단순대치법 : 결측이 있으면 삭제 / 데이터가 적거나 결측이 많으면 데이터손실
- 평균대치법
- 조건부 평균 대치 : 회귀분석 이용한 평균
- 비조건부 평균 대치
- 단순확률대치 : 오차를 줄이기 위해 knn사용
- 다중대치법 : 여러번의 대치, 대치 분석 결합 반복
- 1종/2종 오류
- 귀무가설이 맞는데 틀렷다고 하는것
- 귀무가설이 틀렸는데 맞다고 하는것
- 검정 방법
- 일 표본T : ~보다 크다 / ~보다 작다
- 이 표본T : 같은지 다른지
- 카이제곱 검정 : 범주형의 관계/교차분석
- 분산분석
- 회귀분석 결과 확인용
- 두개 이상 집단의 평균을 비교 하기 위한 가설검정. 3개 이상 집단이면 재검정 필요
- 상관계수 계산식 = 공분산/(표준편차*표준편차)
- 유의수준 (P VALUE)
- p value가 작으면, 그 일이 일어날 확률이 작으므로 귀무가설 기각임
- p value가 크면 귀무가설
- 작으면 통계적 의미가 있음
- R은 string을 [3:4] 이런식으로 뽑을 수 없음
- R은 stirng 을 [[1]] 이렇게 하면 원본 나옴
- R코드에서
- type = n → none, 아무것도 안나옴
- type = p → 기본값 산점도, 점으로
- type = l → 선으로
- type = b → 점과 선 모두
- hclust 의 기본값은 compltte, 최장거리법
- summary는 기존 데이터대로, transform은 새로운 열 추가
- scale = t 는 분산을 1로 / center = t 는 평균을 0으로
- 회귀분석에서, 종속변수 (y) ~ 독립변수 (x)
- 표준화값 = x - m / 정규분포 → 음수도 됨
- 표본조사 - 모집단을 특정할 수 없을떄 / 평균 분산을 모르니 가정 x
- EM 알고리즘
- 초기 모수값 - 기댓값 - 최대가능도 검사 - 새로운 모수값 - 최대가능도도달하면 멈춤
- 다중회귀모형은 그냥 R이 아닌 Adjusted R 로 평가
- 랜덤 포레스트는 변수의 차원을 랜덤하게 감소
- 시가 거리 =연속형 / 코사인 자카도 단순일치계수는 범주형
- 체비셰프거리 = max (거리들)
- ROC커브
- x 는 1-특이도
- y 는 민감도
- 기하분포 : 처음 발생할때까지 해야하는 횟수
- 이익도표 : 분류분석의 모형을 평가하기 위한 방법, 랜덤모델에 비해 모델의 성과가 얼마나 좋은지
- 부트스트랩 무한히 하면, 36.8% 안나옴
- 연관분석은 IF~THEN~으로 나옴 (순차 패턴도 이럼)
- 다차원 척도법
- STRESS 값은 0에 가까울수록 적합이 잘됨을 뜻함
- 서열척도면 비계량적 방법
- 데이터가 비율, 구간척도면 유클리디안 거리 확률 가능
- 단어의 어원을 찾는것은 스태밍,
- 자기회귀누적이동평균모형 ARIMA (p,d,q) - AR모형차수/정상화필요차분/MA모형 차수
- K평균군집 - 제곱합 그래프를 통해 K 찾음
- 최소제곱방법은 회귀분석에서 회귀계수 찾는 방법
- 유의성 판단은 P_VALUE임
- p-value : 귀무가설을 기각할때 그 결정이 잘못되었을 확률
- p value 가 작으면, 될 확률이 적어서 기각함
- ESD 이상치 판단, 표준편차 3 이상 떨어진 것들 판단
- 최소제곱법 : 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위해 잔차의 제곱합이 최소가 되는 회귀식 찾는 방법
- 결정계수 : 회귀분석에서, 종속변수가 독립변수로 설명되는 비율.
- SUM SQ_x / ( SUM SQ_x + SUM SQ_residuals)
- 수정된 결정계수 : 변수가 많아질때 조정, 차이가 없다고 독립은 아님
- 부분자기상관함수 : 현재시점과 시차n만큼 떨어진 시점에서 값의 상관계수 계산할때, 두 지점 사이에 존재하는 영향 제거
반응형
'자격증 > 자격증 공부, 후기' 카테고리의 다른 글
SQL 개발자 SQLD 독학 3일 합격 후기와 팁 (0) | 2024.07.18 |
---|---|
데이터분석준전문가 adsp 독학 일주일 합격 후기 (컴공 전공, 현업) (0) | 2024.04.23 |