이 책이 완성된 현재의 시점에, 한국인들은 일상에서 어떤 말과 글을 말하고 쓰고 있을까? 21세기 현대의 우리는 일상에서 얼마만큼의 낱말과 어떤 종류의 말들을 쓰면서 살고 있는 것일까? 어떤 말들은 자주 쓰이고, 어떤 말들은 자주 쓰이지 않는 것일까? 우리는 글을 쓸 때와 말을 할 때, 같은 말들을 쓰고 있는 것일까, 아니면 거기에 좀 다른 점이 있는 것일까?
지난 2015년에 낸 〈한국어 구어 빈도 사전〉(한국문화사)의 머리말을 조금 고쳤을 뿐이지만, 이 의문들은 지금까지 끊임없는 필자의 큰 관심거리의 하나였다. 이 의문을 풀 방법으로, 현대 한국어의 구어와 문어를 대표하는 표본들을 골고루 모아서 균형 말뭉치를 만들고, 컴퓨터 프로그램과 필자의 고된 수작업을 동원하여 여러 해 동안 주석함으로써 분석의 정확도를 높이는 데 힘을 기울여 왔다. 그리고 이제서야 그 결과로써 이 빈도 사전을 완성하게 된 것이다. 20세기 한국어의 어휘 빈도(낱말 잦기)에 대한 첫 조사인 최현배·이승화(1956)의 〈우리말 말수 사용의 잦기 조사 - 어휘 사용 빈도 조사 -〉 이래, 이제 20세기와 21세기에 걸친 현대 한국어의 어휘 빈도 사전을 끝내 이루게 된 것이다.
이제 세상에 내놓는 〈현대 한국어 어휘 빈도 사전〉은 두 권으로 이루어졌다. 첫째 권은, 어떠한 낱말들이 말하고 글을 쓸 때에 자주 쓰이는가를 쉽게 찾아볼 수 있도록, 어휘들을 그 쓰임이 잦은 순으로 배열한 〈잦기순〉 사전이다. 둘째 권은, 어떤 말의 잦기가 얼마나 되는지 독자들이 찾아보기 쉽게 배열한 〈가나다순〉 사전이다.
이 빈도 사전의 특별한 점은, 이제까지 필자가 추구해 온 빈도 조사 결과의 장점을 토대로 하여, 아래의 몇 가지에 초점을 맞추었다는 점이다.
첫째, 국어정보학과 말뭉치언어학의 연구 성과를 바탕으로, 문어 구어를 통합한 균형 말뭉치를 구성하여, 정밀하게 조사하여 한국어 구어와 문어의 실제 모습을 있는 그대로 반영한다.
둘째, 구어와 문어를 대표하는 각각 다섯 가지의 대표적인 장르에서 표본을 골고루 모아서, 각 10개 하위 장르마다의 빈도수, 구어와 문어 각각의 빈도수 등을 쉽게 비교할 수 있도록 한다.
셋째, 낱말뿐 아니라, 조사(토씨)와 어미(씨끝)의 빈도를 모두 함께 조사하여 한국어의 전체 모습을 한꺼번에 파악할 수 있도록 한다.
넷째, 같은 말의 변이형태(예컨대, 주격조사 ‘이’와 ‘가’)나 구어형(구어 실현형, 예컨대 ‘그런데’와 ‘근데, 근디’)을 대표 올림말에 함께 모아서 배열함으로써, 어떤 말이 실제의 구어에서 얼마나 다양하게 나타나며, 형태들에 따라서 어느 정도 더 또는 덜 자주 쓰이는지, 또 어떤 장르 즉 구어인지 문어인지, 또는 공적 장면인지 사적 장면인지 등등에 따라서 그 쓰임이 어떻게 달라지는지를 한눈에 알 수 있도록 한다.
다섯째, 이전의 많은 빈도표에서 출판상의 어려움 때문에 빈도가 높은 일부의 자료만을 실음으로써 당시 언어의 전체 모습을 알아보거나 비교할 수 없었는데, 이 빈도표에서는 빈도 1까지의 모든 목록을 수록하여, 다른 시대, 다른 자료, 다른 방법에 의한 그 어떤 조사 결과와도 비교할 수 있도록 한다.
흔히 컴퓨터를 사용한 말뭉치 분석 자료가 가진 자동 분석의 한계나 문제점이 많이 지적되고 있는데, 이 사전에서는 말뭉치에 나타난 모든 어절을 그 구성 낱말과 조사나 어미로 분석해 내어, 품사와 동음이의어(동형어)를 구분하고, 변이형태를 대표형태로 묶어 내는 그 모든 과정의 작업을, 수년에 걸쳐서 지은이 스스로 직접 보고 판단하며 고쳐 온 것이므로, 이제까지의 그 어떤 빈도 조사에 비해서도 믿을 만한 것이라는 점은 분명히 말할 수 있다.