[빅분기 실기] 단답형 예상 문제 정리 모음

[빅분기 실기] 단답형 예상 문제 정리 모음

대부분 후기를 보니 필기시험쳤을때 핵심적인 내용과 주제어 위주로 나왔다고 합니다. 불안하신분들은 필기책을 아직 안버리셨다면 쭉 훑어보시는 것도 나쁘지 않을거 같습니다.

1. 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 대규모 데이터를 저장할 수 있고, HBase, Cassandra 등의 제품이 있는 저장 기술은 무엇인가?

2. 다음 빈칸에 들어갈 알맞은 용어를 쓰시요.

( )은/는 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우의 결측값이다. 3. 다음 그림을 보고 지니 지수를 구하시오. 4. 다음 괄호( ) 안에 들어갈 데이터 수집 기술은 무엇인가? - 공공데이터는 공공데이터 포털의 ( ) 또는 파일을 통해 수집한다. - ( )은/는 누구나 사용할 수 있도록 공개된 응용 프로그램 인터페이스이다. - ( )은/는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수는 데이터 수집 기술이다. - 응용 프로그램 개발 시 외부 서비스가 ( )으로/로 제공되면 쉽게 연계할 수 있다. 예를 들어 날씨 정보, 항공 정보, 금융 정보 등과 관련된 최신 정보를 응용 프로그램에서 활용할 수 있다. 5. 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 ​과대 표집(Over-Sampling) 방법은 무엇인가?

6. 시계열 분석을 위해서는 만족해야 특성으로 시점에 상관없이 시계열의 특성이 일정하다는 성질은 무엇인가?

(평균이 일정하고, 분산이 시점에 의존하지 않고, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는 특성을 가진다.)

7.. 다음 빈칸에 들어갈 알맞은 용어를 쓰시오.

- ( )은/는 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스이다.

- 다양한 데이터 소스(Data source)로부터 데이터를 수집하여 ETL 과정을 거쳐 ( )에 저장한다.

8. 인공 신경망을 학습하는 데에 있어 은닉층 안의 일부 노드를 강제로 사용하지 않는 과정을 통해 과대 적합을 방지할 수 있는 기법은 무엇인가?

​9. 데이터 분석을 위한 데이터를 데이터 저장소인 DW(Data Warehouse) 및 DM(Data Mart)으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적장하는 기술은 무엇인가?

10. 다음이 설명하는 연속형 변수의 거리는 무엇인가?

- m차원 공간을 일반화한 거리이다. 이 공간에서는 일반적인 3차원의 공간과 1차원의 시간을 조합하여 4차원을 표현한다. - m=1일 때 맨하탄 거리와 같고 m=2일 때 유클리드 거리와 같다. - m이 정수가 아니어도 되지만 반드시 1보다 커야 한다.

11. X 값이 0보다 큰 경우 Y 값도 지속적으로 증가하고 X값이 0보다 작은 경우 0인, 시그모이드의 사라지는 경사 현상 문제를 해결하는 활성화 함수는 무엇인가?

12. 다음 빈칸에 들어갈 알맞은 용어를 쓰시오.

( )은/는 추가 정보의 사용 없이 특정 개인을 알아볼 수 없게 조치한 정보이다.

13. 혼동 행렬의 평가 지표 중에서 실제 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율은 무엇인가?

14. 서포트 벡터 머신에서 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수를 무엇이라 하는가?

15. 다음이 설명하는 빈발항목집합(frequent itemsets) 및 연관규칙분석을 위한 알고리즘은 무엇인가?

- 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생 빈도가 높은 것을 찾는 알고리즘

- 최소 지지도보다 큰 지지도 값을 갖는 빈발 항목 집합에 대해서만 연관 규칙을 계산하는 알고리즘

16. 새로운 데이터 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스로 분류하는 알고리즘으로, 특정 데이터에서 가까운 k개의 데이터의 거리를 구할 때 거리 유클리디안 거리, 맨하탄 거리, 민코우스키 거리 등을 사용할 수 있는 기법은 무엇인가?

정답

1. NoSQL(Not Only SQL)

2. 완전 무작위 결측(MCAR; Missing Completely At Random)

3. 0.64(또는 16/25)

4. 오픈 API (Open API)

5. SMOTE(Synthetic Minority Over-sampling TEchnique)

6. 정상성(Stationary)

7. 데이터 웨어하우스 (DW; Data warehouse)

8. 드롭아웃(Drop Out)

9. ETL(Extract Transform Load)

10. 민코프스키(Minkowski) 거리

+ 표준화 거리

- 변수의 측정단위를 표준화한 거리입니다.

마할라노비스 거리

- 변수의 표준화와 함께 변수 간의 상관성(분포 형태)를 동시에 고려한 통계적 거리입니다.

11. ReLU

12. 가명정보

13. 특이도(Specificity)

14. 슬랙 변수 (Slack Variable)

* SVM의 주요 구성요소

구성요소 설명 결 정 경계( Decision Boundary ) - 데이터 분류의 기준이 되는 경계 초 평면(Hyperplane) - n 차원 공간의 ( n-1) 차원 평면 - 데이터 분류를 위해서는 2개를 분리하는 결정영역이 있어야 하고, 결정영역을 결정짓기 위해 초평면 선택이 필요 마 진(Margin) - 결정 경계에서 서포트 벡터까지의 거리(여유 공간) - 최적의 결정 경계는 마진을 최대화(Maximize) 함 서 포트 벡터(Support Vector) - 훈련데이터 중에서 결정경계와 가장 가까이에 있는 데이터들의 집합 슬 랙 변수(Slack Variables) - 완벽한 분리가 불가능 할 때 선형적으로 분류를 위해 허용된오차를 위한 변수

15. 아프리오리(A Priori)

16. KNN

from http://minorityopinion.tistory.com/72 by ccl(A) rewrite - 2021-12-01 12:00:24