강좌 첫화면으로 최근 글 보기(Post)
갈래별로 보기 categories




  [03.04] 숨은자료의 양과 정보의 질은 비례관계다



웹2.0 시대의 기회. 시맨틱웹

03.04.숨은자료의 양과 정보의 질은 비례관계다.


숨은자료는 자료에 대한 정보와 추가 정보를 뜻한다.

현재 시맨틱웹은 숨은자료를 활용하는 약한 인공지능을 구현하고 있다. 온톨로지에 기반한 강한 인공지능까지는 시간이 꽤 걸릴 전망이다. 그러나 숨은자료 활용만으로도 많은 변화를 이끌어내고 있으며, 숨은자료만 잘 이해하고 활용해도 현재의 웹은 좀더 강력해질 것이다.

숨은자료(meta data, 메타데이터)는 '자료에 대한 정보'다. 웹문서로 따지자면 '문서에 대한 정보'를 말한다. 인터넷으로 A라는 문서 파일을 볼 경우, 네티즌은 눈으로 A 문서 안의 내용만 본다. 그러나 사람들 눈에는 보이지 않지만 이 문서의 작성자와 작성시각, 작성한 곳, 문서의 크기, 문서의 형태, 문서가 웹에 올라온 시각 등의 다양한 정보가 문서 파일 안에 포함되어 있다. 이런 정보를 숨은자료(메타데이터)라고 말하는데, 이런 숨은자료를 활용할 경우 문서에 대한 분류는 물론이고 자동화를 통한 관리, 재활용에서 큰 효율을 얻을 수 있다.

숨은자료의 활용과정은 폴 오틀릿이 정리한 문서화 활용과정과 같다. 책을 보기 위해서는 먼저 원하는 책을 찾아야 한다. 하지만 수 백 만 권의 책을 모두 읽어가면서 책을 찾을 수 없는 일이다. 책 내용과 위치를 모두 머리 속에 기억해두고 찾는 일은 사서라도 쉽지 않으며, 처음 도서관에 온 사람에게는 불가능에 가깝다. 그러나 문서화(documentation)를 통해 도서관에서 책의 제목을 비롯하여 지은이, 펴낸곳, 펴낸날, 쪽 수 갈래 등의 정보를 담은 색인카드를 만들고 이 카드를 제목 순, 갈래순, 지은이순, 펴낸날 순 등으로 잘 분류해놓는다면 책을 찾기가 매우 쉬워진다. 책 내용과 별개로 추가한 색인카드의 책의 제목, 지은이, 펴낸날 등이 바로 숨은자료 또는 추가정보에 해당한다.


숨은자료가 풍부할수록 정보를 쉽게 찾고 편하게 관리할 수 있다.

숨은자료는 풍부할수록 좋다. 책에 표기된 것은 '지은이, 펴낸날, 펴낸곳, 쪽수' 정도인데, '갈래'나 '판형(크기)'처럼 책에 적혀있지 않은 정보를 숨은자료나 추가정보로 추가하면 분류나 책 검색, 재활용이 한결 쉬워진다. 현재 책에 대한 숨은자료는 매우 미약하다. 출판계 종사자라면 매우 중요하게 여기는 '종이질'이나 '잉크질' '도수(인쇄색상의 수)' '두께' '제본방법' 등에 대한 정보는 온라인서점이나 도서관에서 알 수 없다. '종이질'을 더욱 세분화하면 '종이의 종류'와 '종이무게' '종이제조사'를 비롯한 다양한 하위 정보가 필요한데, 이런 정보는 책을 봐도 알 수 없다. 이런 숨은자료가 풍부해질수록 책을 쉽게 찾을 수 있을 뿐만 아니라 책의 재활용에 도움이 된다.

사실 어떤 정보를 얻기 위해 사용자가 책을 찾을 때는 제목보다는 '갈래(category)'로 찾는 것이 훨씬 유용하다. 내가 C언어에 대한 어떤 정보를 찾기 위해서 책을 봐야 할 경우 이와 관련된 책을 본 적이 없는 나로서는 책제목이나 지은이로 이를 찾기가 사실상 불가능하다. 사람들은 '컴퓨터'라는 갈래로 먼저 자신이 검색할 책의 범위를 한정시키고, 이어서 '컴퓨터언어'로 범위를 더 축소시킨 뒤에, 'C언어' '초보자용'이라는 갈래로 책의 범위를 축소시켜가면서 자신이 찾고자 하는 책의 대상을 줄여나간다. 이를 위해 '컴퓨터-컴퓨터언어-C언어-초보자용'라는 갈래체계가 필요한데, 이 경우 우리는 갈래를 어떻게 나눌 것인가 하는 고민과 'C언어 이야기'라는 책을 어느 갈래에 넣을 것인가를 고민한다. 이것이 바로 숨은자료에 대한 고민이다.

'컴퓨터'라는 갈래가 없을 경우 우리는 'C언어 이야기'라는 책을 어떤 갈래에 넣을지 고민해야 한다. 컴퓨터라는 갈래가 없다면 책을 분류하고 책을 책장에 꽂을 때 '언어학'이나 '과학' 중의 하나에 넣을텐데 이런 경우 사용자가 'C언어 이야기'를 찾기는 결코 쉽지 않다. 특히 A도서관에서는 이 책을 '언어학'에 넣었는데, B도서관에서는 이 책을 '컴퓨터'라는 갈래를 만들고 컴퓨터책으로 분류했을 경우 사용자는 큰 혼란에 쌓일 것이다. 따라서 책의 분류체계를 만들 때는 먼저 일반인이 쉽게 이해하고 추론할 수 있는 체계를 만들어야 한다. 'C언어'의 경우 언어학 밑으로 분류하는 것보다는 '과학-컴퓨터' 밑으로 분류하는 것이 제대로 된 분류체계인 것이다. 일반적으로 사람들은 C언어를 컴퓨터 갈래에서 찾으려고 하지 '인문학-언어' 밑에서 찾으려고 하지 않기 때문이다.

다음으로 사회적으로 통일이 된 기준이 필요하다. A라는 지역과 B라는 지역의 갈래 체계가 다를 경우 그만큼 두 지역 주민의 정보교류에 문제가 생길 것이다. 그래서 합리적이고 사회적 합의가 된 표준이 필요한데, 이런 일을 하는 곳이 협회나 표준화기구다.

갈래체계가 확정된 후에도 문제는 남는다. 책을 어느 갈래로 분류해야 하는가 하는 점이다. 이 문제는 책의 내용에 대한 이해가 없다면 오류를 범하기 쉬운 과정이다. '갑'이 과학자로서 고민하며 살아온 자신의 삶을 되돌아본 자서전을 '현대물리학자와 불교'라고 이름을 지어 출간했다고 하자. 책 내용을 정확하게 이해하는 사람이라면 이 책을 '문학-수필-자서전'으로 분류하겠지만 바쁘다는 이유로 제목만 보고 판단하는 사람이라면 이 책을 '과학-물리학'이나 '종교-불교'로 분류할 것이다. 물론 성실하게 책 내용을 보고 분류한다고 해서 제대로 분류가 되는 것은 아니다. '을'이 과학과 종교의 충돌문제를 다룬 '현대물리학과 종교'라는 책을 냈다고 하자. 이 책을 읽고 내용을 이해했다 해도 이 책을 과학책으로 분류할지 종교책으로 분류할지 쉽게 판단하기 힘들다. 단일 분류법이라면 이런 경계를 단 칼에 구분하기 쉽지 않다. 이런 경우 해법은 이 책을 과학과 종교 양 쪽에 동시에 분류해 비치하는 방법이 될 것이다. 이를 위해서는 갈래의 단일 분류체계가 아닌 다중 분류체계를 만들어야 한다. 시맨틱웹에서는 이 문제를 꼬리표(tag)라는 기술로 해결해나가고 있다.


시맨틱웹의 초기 과정은 숨은자료 사용으로 구현되고 있다.

전자문서나 웹문서 또한 똑 같은 고민을 하고 있으며, 같은 과정을 밟고 있다. 이 과정이 시맨틱웹의 구현 과정인 것이다. 시맨틱웹은 추가정보를 웹문서에 포함시켜 문서의 분류나 활용에 도움을 받으려 한다. '제한된 지면, 수작업, 눈으로 확인'이라는 특징을 가진 책의 색인카드와 달리 '제한 없는 크기, 자동화, 감추어 안보임'이라는 특징을 가지는 것이 다를 뿐이다. 컴퓨터 파일에 사용하는 숨은자료는 이름 그대로 사람 눈에 보이지 않도록 숨겨진 상태다. 그러나 모든 파일 내용을 판독하는 기계는 숨은자료를 찾아내 읽고 이를 해석한 뒤에 적당한 동작을 실행한다. 숨은자료는 사람 눈에 보이는 자료가 아니기 때문에 사람보다는 컴퓨터나 프로그램에 더 필요한 자료라 할 수 있다.

현재 우리가 사용 중인 웹문서의 숨은자료는 풍부하지 않다. 파일 자체로 확인이 가능한 파일크기와 종류, 생성날짜를 비롯하여 메타태그로 표현하고 있는 문서제목과 저자, 저작권, 핵심낱말(keyword), 설명(description) 등 단편적인 자료 몇 가지를 제공할 뿐이다. 이 정도의 숨은자료로는 프로그램끼리 자동화처리하는데 한계가 있다. 그래서 좀더 풍부한 숨은자료를 정의하고 이를 활용하는 방안을 연구하는 것이며, 이 일이 곧 시맨틱웹의 초창기 작업과정이 되고 있다.

초기의 시맨틱웹에서 숨은자료가 가진 중요성은 매우 크다. 아니 현 상황에서 숨은자료를 제외하면 시맨틱웹 구현이 안된다고 할 정도이며, 초기 시맨틱웹의 구현은 숨은자료 활용으로 이루어지고 있을 정도다. 한 예로 일정관리 정보 사이트가 매일매일 새로운 정보를 제공한다고 해보자. 이 경우 내 PDA나 PIMS(Personal Information Management System, 개인정보관리시스템) 프로그램에서 나에 대한 정보로 '한국음식, 12시 점심시간'이라는 두 개의 낱말을 숨은자료로 제공했다고 하자. 일정관리 정보 사이트 프로그램은 이를 분석해 점심시간 10분 전에 '강남역 근처에서 한국음식을 잘 하고 특별 할인행사를 하는 집과 관련 정보'를 내 휴대전화로 전송해줄 것이다. 나는 휴대전화에 나온 음식점으로 동료들을 이끌고 가서 점심을 먹으면 된다. 내가 프로그램에 제공한 숨은자료는 한국음식이라는 내 기호와 시간 정보에 불과하지만 기존의 내 개인정보와 합쳐서 내가 근무하는 곳 근처의 한국음식점 정보를 점심시간에 맞추어 보내주는 것이다. 이 모든 것은 숨은자료를 프로그램이 알아서 판단하고 이해하기 때문에 가능한 것이고, 자동화처리가 가능하다.
웹2.0 시대의 기회. 시맨틱웹





첫줄로(go top, go first line) 문화원첫화면으로(go dal site home) 강좌차림으로(go Chair) 사이트맵으로(go sitemap)




total chairpost