본문 바로가기

공공 데이터 교육

(15)
데이터 사이언스 3가지 1. 기술 2. 통계 3. 인문
공공데이터 데이터 분석 데이터 분석 - 데이터 분석의 목표와 순서가 중요 1. 목표정의 2. 전처리 3. 알고리즘 선택/분석 4. 검증 및 테스트 머신러닝 데이터 분석 필수 스킬 1. 통계 2. 수학(선형대수,미분) 3. 분석 프로그램 데이터를 모으는 방법 (질좋은 데이터를 모으는 방법) 1. 모집단과 표본 - 모집단을 분석하는 것이 최선이지만, 모집단을 구하는 것은 현실적으로 불가능 모수치, 표본수치 데이터 분석 기초 3가지 (중요) 1. 분포의 모양 2. 집중경향치 3. 분산과 표준편차 정규분포를 사용하는 이유 1. 전통적인 통계분석 방법 사용 2. 중심극한정리 데이터 분석의 첫번째 = 집중경향치 파악 1. 평균 2. 중앙치 3. 최빈값 분산과 표준편차 - 데이터 분석의 기본적인 수치 데이터 분석 시작에 필수 기술통계, 추..
공공 데이터 시험 요약 - 1일 - 1. 공공데이터는 공공기관이 직접 생성해서 관리하는 데이터만 해당한다. 정답 : X 취득하여 관리하는 데이터도 포함된다. 2. 공익목적으로 사용할 수 있는 데이터는 공공데이터가 유일하다. 정답 : X 민간데이터도 공익목적으로 사용가능하며, 공익목적의 활용을 염두에 둔 데이터는 민간 공공 구분없이 공익데이터라고 불리고 있다. 1. 가트너는 2012년, 데이터는 21세기의 원유라고 정의한 바 있다. 정답 : O 데이터 가공, 정제는 마치 원유를 정유하듯이 가치를 더해가며, 4차 산업혁명의 신자본으로 불리기도 한다. 2. 우리나라는 지금도 공공데이터 개방 수준이 후진국 수준으로 매우 뒤쳐져 있다는 평가를 받고 있다. 정답 : X 뒤늦게 제도화되고, 관련 정책의 시작이 빠른 편은 아니었지만, OEC..
공공 데이터 15일 공간 정보 - 지상/지하/수상/수중 등 공간 상에 존재하는 자연적 또는 인공적인 객체에 대한 위치정보 및 이와 관련된 공간적 인지 및 의사결정에 필요한 정보 지도 - 정보를 기록하는 최고의 수단 공공데이터 개방표준 - 공공기관이 활용도가 높은 공공데이터를 제공할 때 제공하는 데이터셋에 공통적으로 적용해야 하는 기준 csv 표준데이터셋 점검절차 실측 - 현장 방문을 통해 실측 대상을 확인하고 정확한 위치정보(위도, 경도, 주소 등)를 수집/측정하는 활동 - 실측의 대상과 범위는 공공기관마다 상이 지번주소 vs 도로명주소 좌표값(위경도) 실측 기준 실측 절차 온라인 실측 현장방문 실측 문서작성 - 편집용지 설정 및 등록
공공 데이터 14일 DB 진단도구 - 데이터품질관리시스템(DQMS): 블랙박스처럼 감춰진 DB 데이터의 유효성 등을 검증하여 오류데이터를 찾아내고 개선 활동 등을 지원하는 기능을 포함하고 있는 시스템
공공 데이터 13일 데이터 모델링 - 현실세계의 업무와 사용자 요구사항을 데이터 실체로 도식화하는 작업 - 데이터 모델링 작업의 결과 = 데이터 모델 - 목적 1. 정해진 절차와 용어로 데이터 모델을 작성해서 표준화된 의사소통 도구로 활용하기 위함 2. 데이터 중심으로 분석해서 데이터 흐름을 제어하고 데이터 기반의 효율적인 시스템을 구축하기 위함이며 ERD로 표현 데이터 모델링 방법 데이터 모델링 효과 1. 데이터 구조의 정확한 표현 2. 데이터 간의 정합성 확보 3. 동일한 유형의 데이터를 통합 관리 4. 중복 데이터의 공유화 5. 조직 전체 시각의 데이터 구조 도출 데이터 모델링 기법 1. 주제영역 2. 엔티티타입 3. 관계 4. 속성 5. 식별자 6. 서브타입 엔티티 타입 - 업무에서 관리하고자 하는 데이터의 한 형태..
공공 데이터 12일 데이터 표준화 - 데이터 사용자 간 명확한 의사소통을 위해 일관된 기준을 적용하는 일련의 활동 데이터 - 구조 데이터(메타 데이터) + 값 데이터 - 체계적으로 구조화되어 저장된 부호, 문자, 음성, 음향 및 영상 등으로 표현된 모든 종류의 자료 메타데이터 구성 요소 데이터 표준화 목적 - 데이터 표준화 대상 - 데이터 표준화 대상 관계 데이터 사전의 구조 표준화 대상 자료 수집 1. DB정보 2. DB스키마 3. 테이블정의서 4. 구조정의서 5. 법령용어 6. 내부표준용어 7. 내부개별코드 8. 통계용어 9. 업무용어 10. 공통표준용어 11. 행정표준코드 12. 전문용어 표준 관리 기준 자료 수집 1. 기관조직도 2. 부서별업무직제 3. 업무정의서 4. 업무흐름도 5. 시스템별표준화지침 6. 데이터표..
공공 데이터 11일 공공데이터 품질 관리 저 품질 데이터의 영향 공공 데이터 품질 불만족 이유 자체생성형 DB 수집형 DB 제공형 DB 복합형 DB 공공데이터 품질관리, 단계별 활동 도출 - 데이터 생애주기를 고려해 계획, 구축, 운영, 활용의 단계별 품질관리 활동으로 구성 계획단계 - 각 기관은 공공데이터 품질관리를 위한 내부규정 마련 및 추진조직을 구성하고 소관 공공데이터의 품질관리계획을 매년 수립하여 시행 구축단계 - DB 구축 시 데이터 표준을 적용하고 데이터주고 일관성 확보, 오류데이터 유입 방지, 데이터 관련 산출물을 확보해야 함 - 행정표준코드관리시스템 운영단계 - 기관은 소관 데이터의 품질진단 및 개선을 상시적으로 실시하고 연계데이터 정합성 유지 및 산출물을 지속적으로 점검 및 현행화 유지 - 품질진단 기법 ..