초기 웹은 웹사이트 주소를 단위로 사용되었다. 웹사이트 목록을 모은 옐로우페이퍼가 발행되었고, 각종 즐겨찾기나 디렉토리 사이트는 웹사이트를 분류해 보여주었다. 사이트가 많아지자 문서와 문서를 연결하는 링크를 단위로 사용하면서 문서가 정보의 단위로 되었다. 그러나 문서의 제목만으로 원하는 정보를 찾기가 어려워지자 문장 검색을 지원하는 검색엔진이 등장했다. 문장 검색 역시 정보의 양이 많아지자 점차 한계를 드러내고 있다. 그래서 다시 문장 안에서 필요한 낱말을 조합하거나 제외하는 낱말 단위의 조건검색을 제공한다. 낱말 단위로 정보의 단위가 줄어든 것이다.
최근에는 숨은자료를 이용해 낱말 하나의 의미를 다시 여러 갈래로 분화시키고 그 의미를 파악하고 있다. 온톨로지가 적용되면 더욱 더 세분화될 것이다. 즉 정보의 단위가 점차 아주작은알맹이(micro-content) 시대로 넘어가고 있는 것이다.
이처럼 정보량은 많아지는 반면 정보 단위는 사이트-문서-문장-낱말 단위로 점차 작아지고 있다. 궁극적으로 정보 단위는 한 글자나 음소 단위가 될 수도 있다. 이를 위해 언어학이 동원되는 것이고 온톨로지가 동원되는 것이다. 현재 시맨틱웹에서 가장 기본이 되는 기술은 자원 설명을 위한 RDF를 비롯한 지식 설명을 위한 온톨로지, 온톨로지 기반의 언어인 OWL(Ontology Web Language) 등이다. 지금까지 다루던 정보단위를 좀더 세분화하여 설명을 상세하게 하고, 이를 기반으로 정보 자원 사이의 관계를 파악하거나 재활용하겠다는 것이다.
정보의 단위가 작아지는 이유는 작아질수록 그 의미가 명확해지기 때문이다. 아직까지 컴퓨터는 인공지능이 덜 발달해 명확하게 정의된 정보 단위로 파악하는 것이 쉽다. 사람처럼 자연어로 된 것의 의미와 그 차이를 밝히는 것은 매우 어렵다. '먹다.' '먹었나?' '먹었을까?' '먹었던 것일까?' '먹었으려나?' 등의 표현 차이를 컴퓨터가 판별하기는 어렵다. 컴퓨터는 '먹었다'라는 낱말을 이해할 수 있고, 이를 다시 분해하여 '먹'과 '다' '었다.' '는다' '을까' 등으로 구별할 줄 안다. 즉 정보의 단위가 작아지는 이유는 컴퓨터가 좀더 쉽게 파악할 수 있도록 하기 위해서다.
한편 정보 검색에서는 정보시간도 중요한 검색 조건이 된다. 10년 전에 올라온 웹문서는 누적된 링크도 많고 인기도 많은 반면 최근에 올라온 문서는 링크도 거의 없고 알려지지 않았다. 이 경우 단지 링크 수가 많다는 이유로 옛날 정보가 더 가치가 있을 것이라고 판단할 수 없다. 정보를 이해할 때는 정보의 단위도 중요하지만 시간과의 관계도 함께 이해되어야 한다. 현재까지는 정보단위의 연구에만 집중하고 있을 뿐 정보시간까지 연구되고 있지는 않다. 하지만 앞으로 정보시간을 다루는 기술이 알맹이 가치 평가에 중요한 기준으로 제시되어야 할 것이다.
