강좌 첫화면으로 최근 글 보기(Post)
갈래별로 보기 categories




  [03.01] XML을 기반으로 한 시맨틱웹의 구조



웹2.0 시대의 기회. 시맨틱웹

3.시맨틱웹의 진행 과정


03.01.XML을 기반으로 한 시맨틱웹의 구조


시맨틱웹은 W3C에서 웹의 접근, 활용, 바른 발전을 위해 개발하는 기술과 방법의 총칭이다.

현재 시맨틱웹을 진행시키고 있는 가장 중요한 기관은 웹표준을 만드는 W3C라 할 수 있다. W3C(World Wide Web Consortium)는 1994년 10월 웹의 창시자인 팀 버너스리를 중심으로 미국 MIT 대학에서 출발했다. 현재 업계, 학계, 정부의 각종 기관 500개 이상이 회원으로 가입해 W3C를 지원하고 있다. W3C는 웹에 관한 표준을 만들면서 인터넷의 흐름을 바르고 발전적인 방향으로 이끌고 있으며, 여러 가지 문제를 조정하는 역할을 하고 있다. W3C의 궁극적 목적은 모든 인류가 여러 가지 한계와 차이를 극복할 수 있도록 누구나 웹에 접근할 수 있고(Universal Access), 접근한 웹을 활용을 도와주며(Semantic Web), 웹을 신뢰할 수 있도록(Web of Trust) 바른 방향으로 발전시키는데 힘을 쏟고 있다.
누구나 접근 가능한 웹이 웹표준의 제정과 준수로 이루어지는 것이라면 웹의 활용은 시맨틱웹의 구현으로 이루어진다. 시맨틱웹은 웹의 활용을 돕고, 웹을 신뢰할 수 있도록 도와주는 기술과 방법론의 총집합체인 셈이다.


SGML을 개선시켜 웹에 적용시킨 XML은 자동화에 좋다.

HTML 문법은 링크만 표시할 수 있을 뿐 그 외의 일은 할 수 없다. 그러나 1986년 골드파브(Goldfarb)에 의해 개발된 SGML은 문서의 구조를 설명하는 언어로 개발되었다. SGML은 문서의 형식 뿐 아니라 문서와 자료를 설명하기 위한 문법규칙으로 태그의 의미와 사용규칙을 정의해주는 언어다. SGML을 웹에 더 적합한 형태로 개선하고 쉽게 사용할 수 있도록 만든 것이 XML(eXtensible Markup Language = 확장기호표시언어)이다. 1988년에는 W3C에서 XML을 새로운 웹표준언어로 선택한다. XML은 새로운 태그를 정의해 사용할 수 있는 언어로 SGML의 웹판이라고 볼 수 있다.
HTML 태그가 미리 정의된 것과 달리 XML 태그는 XML에서 미리 정의된 것이 아니다. 즉 필요한 태그를 사용자가 직접 정의해 사용할 수 있다. HTML에서는 라는 이름의 태그가 지정되어 있었지만, XML에서는 사용자가 라는 이름의 태그를 만들어 사용할 수 있다는 뜻이다. 이것은 기존의 HTML보다 훨씬 유연하고 확장성이 좋다. 이렇게 함으로써 XML은 문서의 내용과 표현을 구분할 수 있게 되었다.

[HTML의 특징]
1. HTML은 문서 디자인용 태그가 대부분이다. 문서의 구조는 설명하지 않는다.
2. HTML 문서는 문서 내용과 디자인만 있어 기계가 문서의 의미나 구조를 파악하기 어렵다.


[XML의 특징]

1. XML은 문서의 구조를 정의하는 문법으로 문서 작성자가 태그를 만들고 정의할 수 있다.

2. XML 문서는 문서의 자료 구조, 태그의 의미 등을 설명하므로 기계가 구조를 파악할 수 있고 자동화하기 좋다.

기존의 HTML이 문서를 화면에 예쁘게 보여주기 위해 태그를 사용한 것과 달리, XML은 눈에 보이지 않는 문서의 구조나 의미도 태그로 정의할 수 있다. 이는 대단한 장점이나 사용자가 태그를 마음대로 만들 수 있기 때문에 문서 내용과 상관 없는 부적절한 태그도 사용이 가능한 점은 문제다. 즉 라는 태그는 누구나 글씨 색깔이나 크기를 바꿀 때 쓰는 태그라는 것을 알지만 라는 생전 처음 들어본 태그가 무엇을 하는지 파악하기는 쉽지 않은 것이다. 이 글씨 크기를 지정하는 태그인지, 동굴의 길이나 넓이를 나타내기 위해 만든 태그인지 바로 판별하기는 어렵다. 또한 같은 의미를 가진 다른 구조의 웹문서를 작성할 수도 있다. 라는 태그 외에도 이나 라는 태그를 사용해서 문서를 작성할 수도 있는데, 이때 사용한 라는 태그는 사실 같은 의미를 가진 태그다. 문제는 이 세 개의 태그가 같은 의미를 가진 태그라는 사실을 컴퓨터가 어떻게 이해할 수 있느냐 하는 점이다.

이런 이유로 XML이 비록 HTML보다 더 확장성이 좋고 유연하다고 하지만 시맨틱웹의 표준언어로 사용하는데는 한계가 있다. XML로 정의한 태그는 사람이 이해하기는 어렵지 않으나 기계가 자동적으로 그 의미를 이해하기는 어렵다. 특히 태그 사이의 의미 연관성을 추론하기란 매우 어렵다. 임의로 만든 태그의 사용법은 알 수 있어도 어떤 의미를 담고 있는 태그인지 파악하기는 어려운 것이 XML의 단점인 것이다.

RDF는 이런 문제를 해결하기 위해 제시된 기술이다. RDF(Resource Description Framework = 자원서술얼개)는 특정 자원에 대한 숨은자료를 설명하는 XML 기반의 프레임워크다. RDF는 자원, 속성, 속성값을 묶어서 하나의 단위로 취급하는 기술로 정보를 구성하는 자원에 대한 좀더 세밀한 설명과 관계 파악을 쉽게 해준다. 즉 RDF라는 기술을 이용하면 문서에서 사용되는 요소의 의미와 문서 사이의 관련성 표시가 쉬워지고, 기계끼리 자동화처리가 한결 쉬워진다.


XML과 RDF에 기반을 두고 있는 시맨틱 웹의 계층 구조

현재 시맨틱웹의 구조는 RDF와 같은 기술에 크게 의지하고 있다. 시맨틱웹의 초기의 구조와 요즘은 구조가 조금 다르다. 팀 버너스 리가 제안한 시맨틱웹의 계층구조는 그림과 같다. 여기서 계층적이라는 의미는 각 계층별 기술들은 독립적으로 발전해 왔지만, 시맨틱 웹을 구현하는데 있어서는 하위 계층의 기술이 상위 계층의 기술 구현의 기반이 된다는 말이다. 또한 기술의 발전의 시간적 순서는 하위계층에서부터 상위계층으로 올라가고 있다.

시맨틱웹의 2002년 계층 구조와 2005년 변화된 발표 내용

** 팀 버너스 리가 설명한 시맨틱웹의 2002년 계층 구조와 2005년 변화된 발표 내용. Ontology가 OWL 등으로 대체된 변화가 눈에 뜨인다.

웹2.0 시대의 기회. 시맨틱웹





첫줄로(go top, go first line) 문화원첫화면으로(go dal site home) 강좌차림으로(go Chair) 사이트맵으로(go sitemap)




total chairpost