데이터 과학자의 일은 창의적 사고와 끝없는 호기심이 필요한 예술과도 같아요. 나날이 발전하는 컴퓨팅 기술을 익히고. 새로운 기술로 인공지능을 학습시키고 사용할 수 있는 역량을 갖추기 위해 끊임없이 공부해야 하는 직업이죠. 그래서 어쩌면 가장 미래와 가까운 직업일 수 있어요. 미래를 예측하고 준비하는 일에 도전하고 싶은 어린이에게 이 직업을 추천합니다.
데이터 과학이 발전하는데 중요한 역할을 한 기술은 무엇인가요?
여러 가지가 있지만, 특히 몇 가지 핵심적인 것들을 들 수 있어요. 첫 번째는 분산 컴퓨팅 시스템이에요. 대량의 데이터를 처리하기 위해선 고성능의 컴퓨팅 파워가 필요하고, 이를 위해 분산 컴퓨팅 시스템이 중요해요. Apache Hadoop이나 Spark 같은 플랫폼이 이에 해당하죠. 두 번째는 데이터 저장 및 관리 기술이에요. 대용량 데이터를 효율적으로 저장하고 빠르게 접근하기 위해 고안된 NoSQL 데이터베이스, 클라우드 스토리징 솔루션 등이 여기에 속해요. 세 번째는 머신러닝과 데이터 마이닝 기술이에요. 이 기술들은 대량의 데이터에서 패턴을 찾아내고 예측모델을 구축하는 데 필수적이죠. 특히 최근의 AI 발전은 이 분야에 큰 영향을 미쳤어요. 마지막으로 데이터 시각화 도구도 중요해요. 복잡한 데이터를 이해하고 해석하는 것은 매우 어려워요. 이를 위해 개발된 고급 시각화 도구들이 데이터 과학자들에게 매우 유용하게 사용되고 있죠. 이러한 기술들이 결합되어 데이터 과학은 통계, 컴퓨터 과학, 정보 기술의 경계를 넘어서 통합된 학문으로 발전하게 되었습니다.
데이터에서 문제를 해결하는 방법을 찾아요
데이터를 들여다보면 ‘누가, 언제, 어디서, 무엇을, 어떻게 했나’를 알 수 있어요. 그런데 한가지, ‘왜 이렇게 했을까’라는 이유는 빠져있죠. 이유는 사용자들만 알고 있는 거지만 기업에게는 그 이유가 중요해요. 온라인 마켓에서 사용자들이 물건을 고르고 결제를 하는 단계에서 포기하는 일이 많이 벌어졌다면 ‘왜 그랬을까’를 생각해야 문제를 해결할 수 있는 거죠. 또 어떤 거래는 얼핏 문제가 없어 보이는데 보통의 거래와는 다른 점이 발견되면 왜 이런 일이 생겼는지 원인을 찾아야 해결할 수 있어요. 누구도 말해주지 않고 기록하지 않은 이런 ‘이유와 원인’을 데이터 안에서 찾아 문제를 해결하는 사람들이 바로 데이터 과학자예요.
컴퓨팅 사고력을 이해하면 좋겠어요
요즘엔 프로그래밍 언어를 몰라도 자연어로 코딩을 할 수 있기 때문에 프로그래밍을 배우지 않아도 된다고 생각할 수도 있을 거예요. 그래도 저는 프로그래밍을 배우는 게 좋다고 생각해요. 이걸 배우면 컴퓨팅 사고력, 즉 컴퓨터가 어떻게 사고하고 어떻게 정보를 처리하는지 이해할 수 있거든요. 프로그래밍 언어를 배우는 목적이 바로 컴퓨팅 사고력을 이해하는 것이어야 해요. 코딩을 배우면서 영어 단어 외듯이 프로그래밍 언어를 외우는 게 아니라 컴퓨터가 어떻게 작동하는지 그 원리를 깨우치자는 거예요.
경진대회를 적극 활용해요
머신러닝도 좀 알고 코딩도 할 줄 안다면 경진대회에 나가보는 게 좋겠어요. 캐글Kaggle이라는 플랫폼이 있어요. 2010년 설립된 예측모델 및 분석 대회 플랫폼으로 머신러닝 및 데이터 사이언스 커뮤니티죠. 캐글에 각종 기업이나 단체들이 상금을 걸고 데이터와 해결과제를 등록하면 데이터 과학자들이 과제를 해결하기 위해 경쟁해요. 경쟁에 참여하는 사람들은 데이터 과학자도 있지만 중고등학생들과 대학생들도 많이 참여해요. 누가 되었든 나만의 알고리즘을 만들어서 문제를 풀기만 하면 되거든요. 평가도 단순해요. 제출한 결과를 기업에서 실제로 사용해 보고 점수를 매겨서 판단하죠. 참가자의 전공이나 경력 같은 것은 의미가 없어요. 경진대회에 참여해 보는 경험이 좋은 건 상을 떠나서 머신러닝을 학습하는 기회가 되기 때문이에요.
데이터 과학과 관련한 다양한 직업이 등장할 거예요
최근에는 데이터 과학 분야가 더욱 세분화, 전문화되면서 새로운 직종들이 등장하고 있어요. 데이터 제품 소유자, MLOps 전문가, LLM 엔지니어 등인데요. ‘데이터 제품 소유자(Data Product Owner)"는 데이터 기반 제품이나 서비스의 전략과 비전을 설정하고 이끄는 역할을 해요. 이들은 데이터 분석 결과를 비즈니스 전략에 통합하여 제품 개발을 주도하죠. "MLOps" 전문가는 머신러닝 모델의 개발, 배포 및 운영을 담당하며, 이 모델이 실제 환경에서 효과적으로 작동하도록 관리해요. MLOps는 DevOps의 원칙을 머신러닝과 결합한 것으로, 머신러닝 시스템의 지속적인 통합, 배포 및 모니터링을 중점적으로 다루죠. 그리고 "LLM 엔지니어(Large Language Model Engineer)"는 대규모 언어 모델을 개발하고 최적화하는 일을 하며, 자연어 처리와 관련된 다양한 애플리케이션을 구현하는 일을 해요. 이러한 역할은 인공지능과 언어 기술의 발전에 따라 점차 중요해지고 있어요.
- 『데이터 과학자는 어때?』 본문 중에서