자연어 처리(Natural Language Processing, NLP)는 번역, 자연어 데이터를 자동으로 처리하는 방법으로 다양한 분야(번역, 자동 완성, 문법 확인, 음성 인식 등)에서 활용되고 있다.
■ NLP 관문: 언어의 모호함을 이해하라
컴퓨터가 자연어를 처리할 때 중요한 것은 ‘모호함’을 없애는 데에 있다. 예를 들어 동음이의어가 있다. ‘배’ 라는 단어가 과일을 지칭하는지, 선박을 의미하는지 알아내야 한다.
사람은 동음이의어를 이해할 때 문맥을 살핀다. 컴퓨터는? 마찬가지로 문맥을 살핀다. 컴퓨터의 문맥은 확률과 통계로 계산되어진다. 실제로 NLP의 많은 문제를 최적화 문제로 대입해서 생각해볼 수 있다.
공식이 보이면 일단 좀 막막해지는 문과생이지만, 차근차근 알아가보면 어렵지 않으리라… 믿는다. (공부한 것을 정리하고 싶은 주제는 너무 많은데 시간이 없어서 큰일이다…)
마지막으로 NLP 관련하여 보기 좋은 유투브 강의 영상을 하나 추천한다. 스탠포드 대학의 Dan Jurafsky 교수님 강의로, 교과서도 온라인에 공개되어 있으니 내 설명이 부족할 때는 원문을 찾아보는 것을 추천한다!