554 860

Cited 0 times in

데이터마이닝 기법을 이용한 출산자녀수 결정패턴에 관한 연구 : 2000년 전국 출산력 및 가족보건 실태조사를 중심으로

Authors
 양효실 
Issue Date
2005
Description
국제보건학과/석사
Abstract
[한글]

본 연구는 현재 한국사회의 중요한 사회적 쟁점인 저출산에 관한 연구이다. 최근 몇 년째 저출산 현상이 지속됨으로서 앞으로 우리사회에 여러 방면에서 심각한 사회적 파장이 예측되고 있다. 본 연구의 목적은 우리 사회가 최근 지속되는 낮은 출산율에서 벗어나서 인구대체수준으로 출산율을 회복시키는 정책을 세우는데 필요한 의미 있는 기초적인 자료를 제공하고자 한다, 우리나라의 대표적인 출산관련 자료인 한국 보건사회연구원이 실시한 '2000년도 전국 출산력 및 가족보건 실태조사'를 중심으로 우리나라 유배우 여성들이 출생자녀수를 결정하는 의미 있는 패턴과 변수들 간의 상관성을 분석하기 위하여 데이터마이닝(Data Mining) 기법을 적용하고자 한다. 기존의 출생자녀수에 관련한 연구에서는 전통적 통계적 추론방법인 확증적 접근법은 유의성 검정이나 신뢰구간 추정을 통해 관측된 형태나 효과의 재현성을 평가하였다. 그래서 출산자녀수에 관한 결정요인 연구들은 기술적인 통계방법을 규명할 수는 있었으나, 저출산에 영향을 주는 각 요인을 복합적인 사회경제적 환경에서의 분석결과를 예측하고 이를 규칙화 할 수 없는 제한점이 있었다. 이와 더불어, 우리나라에서도 대규모 데이터들의 급속한 축적과 계산능력의 발전에 힘입어 탐색적 자료 분석의 중요성이 부각되고 있는 추세이다. 우리나라에서도 전국적인 국가단위의 출산력자료들이 축적되고 있지만, 최근에 국가적으로 절실하게 해결하여야 하는 쟁점중의 하나인 저출산에 관련한 부분에 대해서는 데이터 자체의 탐색적 자료 분석연구는 전무한 실정이다. 탐색적 방법인 데이터마이닝 기법을 적용하여 출산력 대규모의 데이터베이스 안에 존재하는 출산관련 변수들과 출생자녀수와의 상호 관련성이나 규칙 등을 분석 시도한 것은 향후 인구 및 보건학 분야에서의 데이터마이닝 기법의 적용가능성을 제시했다는 점에서 무엇보다 중요한 의미라고 생각되어진다.본 연구에서는 전체 대상자 15세에서 49세까지의 유배우 부인 6,015명중 출생자녀수가 1명 이상인 경우로 중점을 두고 분석대상자를 제한하였다. 선정된 대상자의 평균 출생자녀수가 2명을 기준으로 1명을 낳는 경우와 3명 이상을 낳는 경우에 영향을 미치는 변수들의 상관성과 규칙을 파악하기 위하여 데이터마이닝의 의사결정나무 기법을 이용하였고 CART (Classification and Regression Trees) 알고리즘 결과를 로지스틱 회귀분석 모형의 결과와 비교하여 제시하면 다음과 같다. 출생자녀수 2명에 비해 1명을 낳은 경우, 로지스틱 회귀분석 결과에서는 거주지, 부인의 교육수준, 자연유산의 경험유무, 첫째아 출생시 부인의 연령, 부인의 현 취업유무, 월평균 보육료에서 유의하게 영향을 미치는 것으로 나타났다. 반면에 데이터마이닝 기법을 통해 분석한 결과로는 첫째아 출생시 부인의 연령, 가구유형, 부인의 직업, 첫째아 출생년도, 월평균보육료, 최종임신연도에 의해서 의사결정나무 구조를 나타내었다. 이 경우에서는 첫째아 출생시 부인의 연령과 월평균 보육료가 두 가지 분석방법의 결과에서 공통되게 나타났다. 다음으로는 출생자녀수 2명에 비해 3명 이상을 낳은 경우에서 로지스틱 회귀분석을 통한 결정요인을 살펴봤을 때, 다른 요인을 모두 통제한 상태에서 거주지, 부부간 역할 분담, 남편의 교육수준, 첫째아 출생연도, 자녀의 필요성, 월평균 보육료에서 유의하게 영향을 미치는 것으로 나타났다. 그리고 데이터마이닝 기법에서는 첫째아 출생년도, 막내아 출생년도, 부인의 결혼연령, 막내아 출생시 부인의 연령에 따라 의사결정나무가 결정되었는데, 특징적인 것은 연령과 출생년도와 관계된 변수들이 다소 반복되어 가지치기를 하는 것을 볼 수 있었고, 첫째아 출생년도는 CART 알고리즘의 의사결정 패턴에서도 관련이 있는 변수임을 보였다.



[영문]This study is related to a low birth, one of the key social issues of Korean society. In recent years, it has been unfavorably predicted that the low birth rate in Korea was going up and would be worst over the world. This is the important reason why we should study this social phenomenon such as a low birth. Also, it is strongly expected to provide the fundamental information for a national birth policy, which can overcome the present phenomenon of low birth and make it a desirable population replacement level in Korea. Based on the data from Year 2000 Korea National Fertility Survey carried by Korea Institute for Health and Social Affairs (KIHASA), we analyzed its inter-relationship among several variables about fertility, and several decision-making patterns for the number of children in Korea, using data-mining technique (i.e., decision tree). In most studies about the number of children, some confirmatory approaches, one of the traditional statistical reasoning methods, have been used to assess the determinants which cause a low fertility in Korea until now. In these a few studies of them, some factors about the number of children were examined by technical statistical methods. Therefore, there were some limitations in that each factor of low birth was not completely predicted and considered in the complicated socioeconomic environments. However, as an importance of data mining and analysis has recently been emerged since more powerful data processing was fully developed with a rapid computation and a huge accumulation of massive data, the data mining and analysis is a widely known method in various practical analyses: There have been few studies using this exploratory technique such as data-mining in population and public health field. Although a national concern of low birth is drastically increased in recent years, this technique have not applied in order to analyze decision-making patterns for the number of children. This study is the first approach to analyze an interrelation and rule among all birth-related variables which affect the number of children in nationwide fertility database by using data-mining technique. Furthermore, these results would be contributed to provide applicability of data-mining technique for future studies of population and public health. In this study, we focused the respondents into only married women, which have over one children, among 6,015 respondents in a range from 15 years to 49 years. We achieved a CART (Classification And Regression Trees) algorithm, one of decision-making trees, to exactly know the decision-making patterns which strongly influence on determining the number of children. And the results from these trees were compared with those of logistic regression model for two cases; one is that a chosen respondent has one child, the other is that she has over three children. All these results were compared with the case that the average number of children is two. In the first case, the number of children has been influenced by the region of residence, wife''s education level, spontaneous abortion, wife''s age at first childbirth, the present employment state of wife, the average monthly nurturing cost from the logistic regression analysis adjusting the effects of the other factors. But the decision-making trees were formed by wife''s age at first childbirth, type of house, wife''s occupation, the year of first childbirth, the average monthly nurturing cost, the last year of pregnancy from the data-mining technique. Particularly wife''s age at first childbirth and the average monthly nurturing cost were used as the key factors of deciding the number of children in both analyses. In the second case, the number of children has been influenced by the region of residence, a conjugal household assignment, husband''s education level, the year of first childbirth, the need of children, the average monthly nurturing cost from the logistic regression analysis adjusted the effects of the other factors. And the decision-making trees were formed by the year of first childbirth, the year of last childbirth, wife''s age at marriage, wife''s age at last childbirth from the data-mining technique. In other words, the year of childbirth and the age of husband and wife made many complicated branches of decision-making patterns. Obviously, it can be shown that the year of first childbirth is an important factor of decsion-making patterns of CART algorithms. In a brief summary, we achieved the CART analysis with the decision tree to understand several decision-making patterns for the number of children, and also compared these results with those of logistic regression model to assess the stability and predictability of the model for the optimized decision tree. Furthermore, those results would be contributed to provide more reliable information on a prospective birth promotion policy and give more farsighted measures for a potential solution to the lowest birth rate and ongoing superaging society in future Korea.
Files in This Item:
T008820.pdf Download
Appears in Collections:
4. Graduate School of Public Health (보건대학원) > Graduate School of Public Health (보건대학원) > 2. Thesis
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/122629
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links