본문 바로가기

공공 데이터 교육

공공 데이터 12일

데이터 표준화

- 데이터 사용자 간 명확한 의사소통을 위해 일관된 기준을 적용하는 일련의 활동

 

 

데이터

- 구조 데이터(메타 데이터) + 값 데이터

- 체계적으로 구조화되어 저장된 부호, 문자, 음성, 음향 및 영상 등으로 표현된 모든 종류의 자료

 

 

메타데이터 구성 요소

 

 

데이터 표준화 목적

- 데이터 표준화 대상

- 데이터 표준화 대상 관계

 

 

데이터 사전의 구조

 

 

표준화 대상 자료 수집

1. DB정보

2. DB스키마

3. 테이블정의서

4. 구조정의서

5. 법령용어

6. 내부표준용어

7. 내부개별코드

8. 통계용어

9. 업무용어

10. 공통표준용어

11. 행정표준코드

12. 전문용어

 

 

표준 관리 기준 자료 수집

1. 기관조직도

2. 부서별업무직제

3. 업무정의서

4. 업무흐름도

5. 시스템별표준화지침

6. 데이터표준화지침

7. 유관기관표준화지침

8. 행정코드표준화지침

 

 

데이터 표준화 기준 정의

1. 표준화 목적 정의

2. 표분화 방향 정의

3. 표준화 대상 정의

4. 표준화 대상 관계 정의

5. 표준화 대상 구성요소 정의

6. 구성요소 표준화 기준 정의

7. 구성요소 표준화 방법 정의

 

 

데이터 표준화 관리 기준 정의

1. 데이터 표준 관리 조직 정의

2. 데이터 표준 관리 역할 정의

3. 데이터 표준 관리 절차 정의

4. 데이터 표준 관리 방법 정의

 

 

표준화 현황 분석

1. 표준화 대상 선정

2. 테이블 정의서 기준 정의

3. 컬럼 한글병 병합

4. 컬럼 한글병 보완

5. 현행 용어사전 대상 선정

6. 컬럼 한글명 전처리

7. 현행 용어사전 작성

8. 표준 현황분석 결과 공유

 

 

단어 표준화

- 단어 표준화란 기관 내에서 상이하게 사용하는 단어들 가운데 표준이 되는 단어를 선정하고 표준단어의 관리항목을 정의하는 것

 

 

단어 생성 방법

1. 현재 운영 시스템이 있는 경우 현행 용어사전의 컬럼한글명을 단어로 분할

2. 신규 시스템 구축 시 데이터 모델 속성을 정의하면서 속성을 단어로 분할

 

 

단어 정의 기준

1. 사용문자는 한글, 영문 및 숫자로 구성하여 영문자는 대문자만을 사용

2. 한글 문자수는 제한 x, 다만 한글자 단어는 다양한 의미를 가질 수 있으므로 가급적 사용을 최소화하고 구체적인 단어로 정의

3. 단어는 명사형으로 정의하고 동사, 접속사, 복수표시, 소유격 형태는 사용 x

4. 단어는 띄어쓰기 x

5. 특수문자 x

6. 순화대상 단어와 순화된 단어를 함께 사용하고 있는 경우 가급적 순화된 단어를 사용

7. 기관명 또는 긴 단어 등은 축약해서 사용 x, 약어 사용 x

8. 한글자의 축약어는 다른 단어와 붙여서 쓸 경우 혼동이 될 우려가 있으므로 가급적 풀어쓴 단어 사용 x

9. 범정부 차원에서는 원칙적으로 동음이의어 사용을 허용하지 않고 다른 단어로 대체하거나 복합어를 통해 대체, 개별 기관 차원에서도 원칙적으로 동음이의어 사용을 허용하지 않으나 부득이한 경우 단어설명, 단어영문명을 구분하여 각각 기관의 표준단어로 정의 가능

10. 숫자와 조합된 단어는 의미가 불분명하지 않도록 정의하며 필요한 경우 수식어를 추가하여 의미를 명확히 함

11. 두 개의 단어가 두음법칙이 발생하는 경우 기준이 되는 단어를 표준단어로 정의하고 나머지는 이음동의어로 정의

12. (파생어) 접두사는 단일어의 앞에 붙여 복합어로 정의할 수 있음

13. (파생어) 접미사는 단일어의 두에 붙여 복합어로 정의할 수 있음

14. (합성어) 단일어+단일어로 구성된 복합어가 새로운 의미를 가진 경우 정확한 의미를 인식하도록 복합어로 등록

15. (합성어) 단어 결합 시 영문명의 의미가 모호하거나 달라지는 경우 복합단어로 등록하고 적합한 새로운 단어영문명 및 약어를 정의

16. (외래어) 외래어 중 표준국어대사전에 한글로 등재된 경우 한글 표기를 사용, 이 경우 영문표기는 사용하지 않도록 함

17. (영문약어) 관용적으로 널리 알려진 영문약어 중 표준국어대사전에 한글(외래어)로 등재되지 않은 경우 영문약어를 그대로 사용

18. (외래어) 외래어를 한글단어로 번역하여 표현이 가능한 경우 의역된 한글 단어를 사용, 단 외래어와 의역된 한글 단어가 둘 다 표준국어대사전에 등재된 경우 기술/산업표준에서 통용되는 단어 및 법령/지침에 정의된 단어를 사용하고 없는 경우는 사용빈도가 많은 단어를 기준으로 함

 

 

단어의 종류

 

 

단어 설명

 

 

단어 영문명

 

 

단어 영문약어명

 

 

업무단어, 형식단어

 

 

도메인 분류명

 

 

이음동의어

 

 

금칙어

 

 

도메인 표준화

- 데이터 속성을 분류하여 도메인(데이터값 형태의 집합)의 분류체계를 수립하고 도메인별 데이터 타입/길이 등 구성요솔르 정의하는 작업

 

 

도메인 정의 절차

- 형식단어들을 분석하여 공통적인 데이터의 형식 및 속성에 따라 도메인그룹명을 정의

 

 

도메인 그룹명

- 도메인 분류체계의 최상위로 해당 그룹의 특성을 잘 나타내고 사용자가 도메인을 쉽게 인식/분류할 수 있도록 데이터 형식을 기준으로 정의

 

 

도메인 분류명

- 도메인 분류명은 도메인 그룹명에서 정하는 상휘 기준의 포괄적인 명칭이 아닌 데이터타입/길이 등을 정의하는 구체적인 명칭을 사용

 

 

도메인명

- 도메인명은 분류한 도메인 집합의 성격 및 데이터 형식/길이를 직관적으로 파악할 수 있도록 명명하되 "도메인분류명 + 데이터타입 = 길이(선택)"의 형태로 정의 (예: 연도C4)

- 길이에 소수점이 있을 경우 데이터 길이와 소수점 길이 사이를 콤마로 구분 (예: 위도N12,10)

 

 

도메인설명

- 도메인 설명은 단어 정의를 참고하되 도메인의 규칙이 명확한 경우에는 가능한 설명에서 제시할 수 있도록 함

 

 

데이터 타입

- 도메인이 나타내는 문자/숫자/날짜 등의 데이터 형식을 식별하는 데이터타입과 데이터가 가질 수 있는 값의 범위인 데이터길이(자릿수)와 소수점길이를 작성, 데이터길이(자릿수)와 소수점길이는 데이터타입에 따라 해당사항이 없으면 작성하지 않을 수 있음

 

 

관리항목 정의

1. 데이터 저장형식

2. 데이터 표현형식

3. 데이터 단위

 

 

용어표준화

- 정보시스템에 사용하는 표준용어를 정의하고 표준용어의 적용 및 관리 원칙을 정하는 것

 

 

용어명 정의

- 등록된 단어 및 도메인으로 구성

- 단어 목록, 도메인 목록에 없는 경우 단어 및 도메인을 먼저 등록하고 용어를 생성

- 업무단어 + 형식단어의 조합으로 생성하며 형식단어는 반드시 포함

 

 

용어설명

- 표준단어 정의를 참고하되 용어와 속성값의 특성을 사용자들이 이해하기 쉽게 작성해야 함

- 특히 계산결과값을 관리하는 항목인 경우 집계 기준을 정의해야 함

 

 

용어 영문약어명

 

 

도메인명

 

 

허용값

 

 

저장형식, 표현형식

 

 

표준 정의 기준 보완

- 데이터 표준화 기준에 의거, 표준화 활용을 진행하면서 보완해야할 사항과 새로운 이슈사항으로 관계자가 합의된 내용을 표준화 기준서에 반영

 

 

표준 적용률 산정

- 정의된 데이터 표준(영문명, 데이터타입, 길이)이 평가대상 DB에 얼마나 적용되어있는지 확인하는 것

- 목적: 지속적으로 데이터베이스의 표준 적용현황을 점검하여 적용률을 공유하고 미적용 원인을 해결하여 데이터 표준, 구조, DB간 일관성을 확보하기 위함

 

 

표준 비교양식 전처리 방법

 

 

표준용어 매핑

- DB에 적용한 표준용어를 기관표준용어, 공통표준용어와 매핑하여 향후 상위기관 표준을 적용하기 위한 활동

- 목적: 공공기관이 데이터베이스 설계 시 범정부차원에서 도출한 공통표준용어를 용이하게 적용하여 공공데이터의 품질을 확보하기 위함

 

 

코드사전

 

 

코드진단

- 표준으로 정의한 코드값으로 일관되게 적용하고 있지 못한 코드 컬럼의 데이터 오류 측정 및 개선 지원

- 목적: 데이터베이스 테이블의 코드성 컬럼에 저자왼 코드값을 코드정의서에 등록하여 데이터분석 시 일관되고 신속하게 활용하기 위함

 

 

공통코드 테이블의 논리적 구성

 

 

공통코드, 개별코드

 

 

코드컬럼값 유효성 진단

 

'공공 데이터 교육' 카테고리의 다른 글

공공 데이터 14일  (0) 2021.07.03
공공 데이터 13일  (0) 2021.07.02
공공 데이터 11일  (0) 2021.07.01
공공 데이터 10일  (0) 2021.07.01
공공 데이터 9일  (0) 2021.06.29