[어게인뉴스=김혜경 기자] 정부가 인공지능 경쟁력의 핵심인 '데이터 확보'에 본격적으로 나선다. 과학기술정보통신부와 한국지능정보사회진흥원은 4월 10일부터 전 부처 및 공공기관을 대상으로 'AI 학습용데이터 현황조사(센서스)'를 실시한다고 밝혔다.
이번 조사는 공공이 보유한 인공지능 학습용 데이터의 규모와 품질, 활용 가능성을 처음으로 전수 파악하는 범정부 차원의 조사다. 생성형 AI 확산으로 산업 전반에서 데이터 수요가 급증하는 상황에서, 흩어져 있는 공공 데이터를 체계적으로 정리해 활용도를 높이겠다는 취지다.
현재 공공기관 데이터는 기관별로 분산 관리되고 있어 전체 현황을 파악하기 어렵고, 민간 기업이 AI 학습에 활용하는 데에도 제약이 있었다. 정부는 이번 센서스를 통해 이러한 구조적 한계를 해소하겠다는 계획이다.
조사는 AI 학습용 데이터뿐 아니라 향후 가공을 통해 활용 가능한 데이터까지 포함해 진행된다. 데이터 유형과 구조, 구축 목적, 제공 가능 범위 등 실제 AI 학습 활용성과 직결되는 항목을 중심으로 표준화된 체계를 적용해 신뢰도를 높일 방침이다.
◆'데이터 100종' 선별…AI 산업 생태계 선순환 구축
정부는 이번 조사 결과를 바탕으로 AI 학습 활용 가능성이 높은 데이터 100종을 선별해 통합 제공할 계획이다. 해당 사업에는 총 60억 원 규모의 예산이 투입된다.
선정 과정에서는 기관별 데이터 보유 현황뿐 아니라 민간 수요조사, 전문가 심층 인터뷰 등을 종합 반영해 실제 산업 현장에서 활용도가 높은 데이터 중심으로 후보군을 압축한다.
최종 선정된 데이터는 품질 개선과 비식별 조치 등 가공 과정을 거쳐 제공되며, 공개가 어려운 경우에는 '데이터 안심구역'을 통해 안전하게 활용할 수 있도록 지원된다. 현재 데이터 안심구역은 11개 기관, 14개 구역에서 운영 중이다.
정부는 기존 'AI허브'를 고도화해 공공·민간 데이터를 통합 관리하는 'AI 학습용데이터 통합제공체계'로 발전시키고, 데이터 거래와 활용을 활성화하는 기반도 함께 마련할 계획이다.
전문가들은 이번 조치가 AI 산업 생태계 전반에 파급력을 가져올 것으로 보고 있다. 한 ICT 정책 전문가는 "양질의 데이터 확보가 곧 AI 경쟁력으로 직결되는 상황에서, 공공 데이터 개방과 연계는 기업 혁신을 촉진하는 핵심 인프라가 될 것"이라고 분석했다.
정부 역시 데이터 발굴부터 활용까지 이어지는 선순환 구조 구축에 정책 역량을 집중하겠다는 입장이다. 공공이 보유한 방대한 데이터를 산업 자원으로 전환하는 첫 시도라는 점에서, 이번 전수조사가 'AI 3대 강국' 도약의 출발점이 될지 주목된다.






