의원님 재산을 찾아서 │ 정보공개센터

빠띠
발행일 2022-09-25 조회수 65


정보공개센터 국회의원 재산신고 내역 공개

- 조민지(투명사회를 위한 정보공개센터 사무국장)

매년 국회의원의 재산이 공개되는 3월 중 하루. 그날은 의원님의 재산을 찾아서 밤샘 작업을 각오해야 하는 날입니다. 자정에 공개되는 의원님의 재산을 조금 더 빨리, 더 쉽게 시민들에게 공유하기 위해서입니다. 시민 누구나 국회사무처 홈페이지에 공개된 국회공보를 통해 국회의원의 재산을 확인할 수 있습니다. 하지만 공개된 정보로는 의원들의 부동산은 어디에 가장 많은지, 1년 사이 가장 많은 재산을 벌어들인 의원은 누구인지 알지 못합니다. 의원님의 재산 내역은 그저 ‘보기’만 가능한 문서로 공개되어 있기 때문입니다. 몇년 전 처음으로 국회의원의 재산공개 파일을 본 순간의 충격을 잊지 못합니다. PDF로 만들어진 문서는 복잡한 표로 이루어져 있고, 하나의 표 안에 여러가지 단위가 포함되어 있어 분석할 수 없는 수준이었습니다.

국회의원 등의 고위공직자 재산을 공개하는 이유는 고위공직을 이용해 부당하게 재산을 늘리는 것을 방지하기 위해서입니다. 매년 세부 재산 내역의 증가나 감소액을 공개하는 것만으로도 고위공직자가 스스로를 검열하게 하고, 시민 누구나 고위공직자의 부당한 이득을 감시할 수 있게끔 하는 기능을 합니다. 하지만 ‘데이터’가 아닌 ‘문서’ 형식으로 공개되는 의원님의 재산은 누구나 손쉽게 감시할 수 없습니다. 분석하기 힘들도록 소위 말해 ‘지저분한’ 데이터를 문서형식으로 공개하기 때문입니다. 이러한 문제의식에서 정보공개센터는 매년 국회의원의 재산공개 정보를 엑셀로 가공하여 시민들과 공유하는 작업을 진행하고 있습니다. 정보공개는 단순히 정보를 공개하는 것에만 그치는 것이 아닌, 시민 누구나 그 정보를 활용하고 분석할 수 있도록 공개해야 하기 때문입니다.


[국회의원 재산내역 PDF 원본 파일]

프로그래밍 언어능력 없이 엑셀만으로 복잡한 데이터를 정제하는 것은 결코 쉬운작업이 아닙니다. 하지만 여러 방법을 거쳐 시도해본 결과 고위공직자 재산공개 내역을 분석가능한 데이터로 정제하는 것은 ‘가능한’ 일입니다. 좀 더 많은 사람들이 복잡한 데이터를 마주했을 때 포기하지 않길 바라면서 국회의원 재산공개 내역을 엑셀로 정제한 경험담을 공유해 보고자 합니다.

데이터를 보고 또 보고

데이터를 정제하거나 분석하기 전 가장 첫번째로 해야 하는 것은 단연 그 데이터를 이해하는 일이라고 생각합니다. 데이터의 항목들이 어떻게 구성되고 무엇을 의미하는지, 값들의 단위는 무엇인지, 각 데이터의 총계나 평균은 어떤 항목값들을 기준으로 계산되었는지를 파악해야 합니다.

재산의 종류는 매우 다양합니다. 예를 들어 부동산 중에도 아파트, 단독주택, 건물, 상가, 창고 등 다양한 종류가 존재합니다. 이 때문에 국회의원 재산내역도 여러가지 분류체계를 갖추고 있습니다. 국회의원 재산공개 내역은 의원이름[대분류], 재산의 구분[중분류], 구분된 재산의 종류[소분류]로 구성되어 있습니다. 이에 따라 각 재산별 종전가액 / 증가액 / 감소액/ 현재가액을 확인할 수 있습니다. 그리고 중분류에 해당하는 재산의 구분별 ‘소계’와 대분류에 해당하는 의원별 전체 재산의 합계를 나타내는 ‘총계’ 항목이 있습니다.

이러한 데이터를 이해하다 보면 자연스럽게 어떤 항목으로 구분지어 데이터를 정렬하고 구조화해야 하는지 상상해 볼 수 있습니다. 가장 세분화되어 있는 ‘재산의 종류’에 재산의 구분과 의원 이름을 정렬해야 분석이 가능한 데이터로 구조화될 수 있다는 것을 확인할 수 있습니다.


[PDF 원본 파일 정제 과정]


[변환된 엑셀파일]

PDF에서 엑셀로

재산공개 내역 데이터가 어떻게 구성되었는지 파악했다면 이제 PDF파일을 편집 가능한 형태로 변환하는 작업을 진행합니다. 보통 PDF파일은 인쇄하기 위해 만들어진 전자문서로 이해할 수 있습니다. 때문에 PDF파일 내에서 표를 분리하여 가공하는 것은 불가능합니다. 이 문제를 해결하기 위해 PDF파일을 편집가능한 엑셀파일로 변환해 주는 별도의 프로그램을 사용합니다. 무료 편집프로그램을 사용하여 엑셀로 변환한 결과 편집이 불가능한 형태로 변환되었습니다. 결국 Adobe Acrobat DC(월 17,600원)라는 유료 편집프로그램을 사용해 PDF를 엑셀로 변환합니다.

엑셀로 변환된 파일을 확인해 보면 PDF파일이 엑셀 시트 위로 단순히 엎어진것 처럼 보입니다. 그러나 자세히 들여다보면 일정한 규칙들을 파악할 수 있습니다. 우선 셀 병합을 풀고 일정한 규칙에 맞게 엑셀의 기능을 사용해 정제작업을 진행합니다. 여기서 주의해야 할 점은 국회의원의 이름 중 동명이인이 있는지 확인해야 한다는 것입니다. 국회의원별 재산공개 내역은 의원별 고유값이 있는 것이 아니라 단순히 의원의 이름으로만 구분되어 있기 때문입니다. 보통 동명이인이 존재할 경우 재산내역에서는 ‘한자’로 따로 표기하여 구분하지만, 의원별 고유 인덱스가 없는 한 동명이인이 제대로 구분되어 있는지 반드시 확인하고 정제하는 과정을 시작해야 합니다. (안그럼,,,, 처음부터 다시,,,,)

원본과의 일치여부 확인

재산공개 파일을 엑셀로 변환하고 정제작업을 완료했다면 가장 중요한 마지막 작업이 남았습니다. 바로 원본의 내용과 일치하는지 검증하는 작업입니다. 쉽고 편리하게 분석할 수 있도록 데이터를 정제하더라도 결국 원본과의 일치 여부가 검증되지 않는 다면 쓸모없는 데이터입니다. 재산공개 내역의 경우 금액으로 원본 데이터와 일치 여부를 확인합니다. 정제된 재산별 내역의 합계가 재산 구분별 소계 및 의원별 총계와 일치하는지 확인하는 작업으로 원본 데이터와 검증합니다. 이때 재산의 구분에서 ‘채무’가 있다는 것은 유념해야 합니다. 채무는 ‘빚’이기 때문에 마이너스 표시를 해야 하지만 재산공개 내역에서는 그렇게 표현하고 있지 않습니다. 재산의 구분별 소계액들을 합친 금액이 총계에서 표현되는 값이 아니라 “[채무 제외한 재산구분 소계액 합계]-채무=총계”의 수식을 사용해야 재산공개내역에서 확인한 ‘총계’의 값이 나옵니다.

또한 다른 사람이 정제한 데이터와도 검증작업을 거칩니다. 데이터 정제는 사람이 하는 작업이기 때문에 혹시 모를 실수나 오류를 확인해야 하기 때문입니다. 이렇게 여러 번의 검증작업을 거쳐 정제한 데이터와 원본파일과의 일치 여부를 확인합니다. 그럼에도 일부 소계나 총계가 일치하지 않는 몇몇 데이터가 발생한다면, 원본 PDF파일을 하나하나 따져 봐야 합니다. 애초에 원본PDF 재산내역 자체가 잘못되었을 경우입니다. 2019년 국회고위공직자 정기재산 변동신고를 정제할 당시 김병관의원의 재산내역 총계와 재산구분별 소계가 일치하지 않는 부분이 있었습니다. 원본PDF파일을 확인해 보니 공보에 게시된 데이터 자체가 잘못되어 있었던 것이었습니다.


[재산내역 오류 사례]

PDF를 포기할때까지 정제하려고요

2019년 국회의원 재산내역 사례처럼 원본이 잘못 공개된 이유는 아마 재산공개 내역을 PDF로 변환하는 과정에서 마지막 숫자가 잘리는 오류가 생긴 것이라고 추측해봅니다. 이렇듯 PDF파일로 공개한다는 자체가 정보의 정확성이나 신뢰성을 담보하지 못하는데도 대부분의 공공기관은 정보를 PDF파일 형태로 공개하고 있습니다.

시민들이 분석하거나 활용할 수 없게끔 PDF파일로 공개하는 공공정보는 고위공직자 재산내역 뿐만이 아닙니다. 예산사용 내역을 확인할 수 있는 결산 정보나 고위공직자 재취업현황 등 공직감시에 필요한 정보들은 대부분 PDF 파일로 공개되고 있습니다. 이러한 관행은 마치 ‘우리가 보여주는것만 봐’라는 정부의 일방적이고 시혜적인 태도로 비춰집니다. 공공정보를 공개하는 것은 그 정보의 활용과 함께 고려되야 합니다. 시민 누구나 공공정보를 습득하고 분석하여 정부의 의사결정과정에 참여하는, 이 모든 과정이 실현되어야 비로소 시민의 알권리가 실현된다고 볼 수 있습니다.

때문에 정보공개센터는 오늘도 정보를 습득하고 그 정보를 보다 많은 시민들이 활용할 수 있도록 정제를 합니다. 아무리 PDF파일로 공개해봤자 우리는 또 다른 방법을 찾고 그 정보를 분석하기 쉬운 형태로 시민들과 공유할겁니다. 공공기관이 PDF를 포기하고 정확한 데이터를 제대로 공개하는 그날까지 말이죠.

제목

제21대 신규 국회의원 재산신고내역을 공개합니다

데이터 명

2020 국회의원 재산신고내역

데이터 링크

https://www.opengirok.or.kr/4824

데이터 형식

국회공보 2020-98호: 재산등록(변동)사항 공개목록 (pdf)

20208.28. 국회의원 재산신고내역 (xlsx)

더 알아보기

Comment (0)