1. 개요
언어 모델(LM, Language Model)은 입력값(자연어, 보통은 사용자의 문장)을 기반으로 통계학적[1]으로 가장 적절한 출력값을 출력하도록 학습된 모델이다. 규모가 큰 언어모델(LM)을 LLM(Large Language Models,대규모 언어 모델)이라고 부르는데, 매개변수 규모가 막대한, GPT-4 같은 모델들이 이에 해당한다. 반대로 규모가 작은 쪽은 SLM(small Language Models)이라 하는데, 다룰 수 있는 범위가 LLM에 비해 좁은 대신 비용이 적게 들어간다.[2] LLM의 경우는 주로 메인프레임, 슈퍼컴퓨터에서 돌아가는 반면, SLM은 워크스테이션, 심지어는 일부 고성능 PC나 스마트폰[3]에서 실행되기도 한다.2023년 ChatGPT의 성공으로 인하여 큰 인기를 얻었으며 산업계 뿐만 아니라 학계에서도 가장 화두가 되어 매일 팔로업하기 힘들 정도로 수 많은 논문들이 쏟아져 나오고 있는 분야이다.
2. 구조
크게 통계학 기반과 인공신경망 기반으로 나눠 볼 수 있다. 현 시점에서는 인공신경망 기반이 아닌 언어 모델은 경제성이 없고 성능이 매우 떨어지므로 사용되지 않는다. 본래는 RNN를 백본으로 구축 되었으나 Attention Is All You Need와 BERT 이후로는 인공신경망 중에서도 자기지도학습 방식으로 학습된 트랜스포머 아키텍처 기반 모델들이 절대 다수를 차지하고 있다.텍스트(자연어), 이미지(2차원), 포인트 클라우드(3차원), 오디오 등 여러 모달리티의 대규모 데이터셋을 모아서 토큰화, 학습시켜 LLM 기반 멀티모달 모델을 구현하는 것도 가능하다.
3. 학습
대규모 언어 모델(LLM)의 인간의 언어를 이해하고 생성하며 다양한 작업을 수행하는 능력은 거의 전적으로 학습을 통해 얻어진다. LLM 학습은 말 그대로 모델이 방대한 양의 데이터로부터 패턴, 문법, 사실 정보, 추론 능력 등을 습득하는 과정으로 엄청난 양의 컴퓨팅 자원과 시간이 소모되는 핵심 단계다.3.1. 학습 데이터
LLM 학습에 사용되는 데이터는 모델의 성능과 특징을 결정짓는 가장 핵심적인 요소라고 할 수 있다. 최신 LLM들은 일반적으로 수백 기가바이트(GB)에서 많게는 수 페타바이트(PB)에 달하는 방대한 양의 텍스트와 코드 데이터셋을 기반으로 학습된다. 이렇게 데이터의 양이 많을수록 모델은 더욱 다양한 패턴과 정보를 학습해 역량을 키울 수 있다.데이터의 규모 만큼이나 데이터 다양성도 중요하다. 웹 크롤링을 통해 수집된 데이터를 비롯, 책, 위키백과, 뉴스 기사, 학술 논문, 코드 저장소 등 여러 출처에서 얻은 데이터가 학습에 활용된다. 이렇게 다양한 분야의 데이터를 학습해야만 모델이 편중되지 않고 일반적인 상황에서도 뛰어난 언어 능력을 갖출 수 있게 된다.
그러나 단순히 양이 많은 것만으로는 충분하지 않은데, 데이터의 질 또한 모델 성능에 결정적인 요소이기 때문이다. 학습 데이터에 잘못된 정보가 포함되어 있거나 불필요하게 반복되는 내용이 많다면 모델의 성능을 저하시키는 원인이 될 수 있다. 따라서 효과적인 모델 학습을 위해서는 데이터 정제 및 필터링 과정에 상당한 노력을 기울여 데이터의 질을 확보하는 것이 필수적이다.
이런 맥락에서 실제로 많은 연구자들과 개발자들이 양질의 데이터를 어떻게 확보하고 활용할 것인가에 주목해 왔다. 아래는 AI업계 전문가와 명사들 가운데 LLM 학습에 있어서 질적으로 좋은 데이터의 확보를 특히 강조한 인물들이다.
- 앤드류 응: 업계의 선구자 중 하나로 학계에서 가장 강력한 영향력을 미치고 있는 앤드류 응 교수는 인공지능 시스템 구축에 있어서 코드는 요리사에, 데이터는 재료에 비유하며 대부분의 성능 향상은 데이터셋에 의해서 결정되어 왔다고 주장한다. 모델 자체의 연구보다는 데이터 정리 과정에서 80% 이상이 결정된다고 한다. 일관적인 라벨링과 품질 높은 데이터 수집 등을 가장 중요한 요소로 평가했다.
- 안드레 카파시: 데이터셋의 효율성을 입이 닳도록 중시한다. 일례로 테슬라 오토파일럿 개발 과정에서 카메라를 통해 수집되는 2차원 이미지 외에 다른 포맷들을 전부 제외시켰다. 3차원 데이터인 초음파센서, 라이다, 레이더 등 불필요하다고 생각되는 센서를 제거하여 극한의 포맷 단순화를 실현시킨 것이다. 또한 같은 타입의 센서여도 센서의 버전과 제조사별 규격이 전부 상이하여 데이터 생성 패턴이 전부 제 각각이라서 노이즈와 엔트로피가 껴서 데이터 관리가 힘들어진다고 주장한다.
- 일론 머스크: 카파시의 성향에 큰 영향을 미친 인물이다. 테슬라 외에도 그가 새로 시작한 스타트업인 xAI를 통해서 확인이 가능한데, 공동 창업자들 대부분이 커리어 내내 어떻게 하면 대규모 신경망을 간단하고 효율적으로 짤 수 있을 지에 대하여 고민해온 사람들이다. 분산 신경망, 저전력 스케일링 등을 시도해왔다. 또한 X Corp.는 트위터 코드의 간소화를 시도하고 있으며, 이를 통해 전처리 과정이 간단한 형태의 데이터 생성을 꿈꾼다. 본인이 인수하기 이전의 트위터와 인스타그램 등을 콕 찝으며 편향된 데이터로 짜여진 알고리즘을 통해 생성된 서비스가 생성하는 편향된 정보와 가짜 정보를 비판하며 향후 본인이 출시할 TruthGPT 도입의 시급성을 강조하기도 한다. 이걸 방지하기 위해 커뮤니티 노트와 유로 인증계정으로 트위터에 스팸봇을 퇴치하고 얻은 정확하고 중립적인 데이터로 자사 모델 학습에 쓸 것으로 보인다.
3.2. 학습 과정
LLM의 학습 과정은 크게 세 단계로 나뉜다.3.2.1. 사전 학습(Pre-training)
가장 시간이 오래 걸리고 비용이 많이 드는 단계로 자기지도학습 방식으로 진행된다. 모델은 정답 레이블 없이 단순히 주어진 텍스트 데이터만을 가지고 학습한다.학습 과제로는 주로 다음 단어 예측(Next Token Prediction)이나 빈칸 채우기(Masked Language Modeling)와 같은 방식이 사용된다. 예를 들어 "나는 배가 고파서 ___"라는 문장이 주어졌을 때, 모델은 빈칸에 들어갈 가장 확률 높은 단어("밥", "빵", "라면" 등)를 예측하도록 학습된다.
사전 학습을 통해 모델은 언어의 문법, 구조, 어휘 의미, 세상의 상식 등 매우 일반적인 언어 능력을 습득하게 된다. 이 단계의 결과물이 바로 특정 작업에 특화되지 않은 기반 모델(Base Model)이다.
3.2.2. 지도학습 파인튜닝(Supervised Fine-tuning)
파인큐닝을 번역하여 미세조정이라고 한다. 사전 학습된 기반 모델을 특정 목적에 맞게 조정하는 단계로 상대적으로 적은 데이터와 자원으로도 진행가능하다. 파인튜닝 단계에서는 사용자의 질문에 답하거나 요약, 번역, 창작 등 특정 작업을 더 잘 수행할 수 있도록 모델을 훈련시킨다.[4] 파인튜닝의 주요 방법론은 지도 학습(Supervised Learning)으로 특정 작업에 대한 정답 쌍(입력-출력) 데이터셋을 사용해 모델을 학습시키는 방식이다.3.2.3. 정렬(Alignment)
모델의 출력이 인간의 의도에 부합하고 유용하며 안전하도록 만드는 정렬(Alignment) 과정을 거쳐야 LLM은 비로소 제 기능을 할 수 있게 된다. 이 정렬을 위한 방법 중 하나가 강화학습(Reinforcement Learning)인데, 이는 모델의 출력에 대해 보상을 부여하며 학습시키는 방식이다. 그런데 여기서 말하는 정렬을 위한 강화학습은 사실 모방학습(imitative learning)에 가까운 것으로, 구체적으로는 인간 피드백을 활용하는 강화학습(Reinforcement Learning from Human Feedback)이라고 불린다 RLHF는 3단계를 거쳐 학습이 이뤄진다. 첫 번째는 인간의 피드백을 통해 모델의 출력을 평가하는 단계고, 두 번째는 인간 평가를 기반으로 보상 모델을 만든 것이며 마지막 단계가 이 보상 모델을 이용해 강화 학습을 수행하는 것이다. 이 세 가지 단계를 모두 거쳐야 언어 모델을 정렬할 수 있는 것이다. RLHF는 사용자 선호도와 안전성을 높이는 데 효과적인 접근법으로, 좀처럼 길들여지지 않던 LLM을 제어 가능하게 만들어 ChatGPT 성공 신화의 밑바탕이 되었다.4. 평가
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[인공지능 벤치마크#s-3.1|3.1]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[인공지능 벤치마크#|]] 부분을
참고하십시오.언어 모델에서 인공지능 벤치마크는 모델의 성능을 객관적으로 평가할 수 있는 기준이 된다. 다양한 과제나 질문을 통해 모델이 실제로 얼마나 효과적으로 작동하는지를 측정할 수 있으며 이를 바탕으로 모델의 강점과 약점을 파악하고 향후 개선 방향을 설정할 수 있기 때문. 벤치마크를 통해 서로 다른 모델 간의 성능을 비교적 객관적으로 견주어 볼 수 있어 연구자들은 물론 사용자 입장에서도 상황에 맞는 최적의 모델을 선택하는 데 도움이 된다.
5. 분류
5.1. 생성형 모델 vs 판별형 모델
생성형 인공지능 열풍으로 처음 언어 모델을 접한 사람들이 자주 오해하기도 하지만 모든 언어 모델이 생성형 모델은 아니다. 오히려 트랜스포머 아키텍처를 대규모 언어 모델에 적용한 첫 성공 사례인 BERT는 인코더(encoder) 모듈만 있는 판별형 모델로서 데이터의 분포를 직접 학습하지 않는다.지금 시점에서는 특수 목적을 위한 판별형 언어 모델을 굳이 구축할 필요가 거의 없기 때문에 일상에서 접하는 상용 인공지능 챗봇 서비스들은 전부 생성형 모델기반이다.[5]
5.2. 대규모 모델 vs 소규모 모델
20년대 들어 “LLM 스케일링 법칙(LLM Scaling Law)” 이라는 말이 유행하기 시작했는데, 대규모 언어 모델(LLM)의 특정 요소를 택해 그 규모를 키우면 성능이 예측 가능하게 향상된다는 내용의 법칙이다.[6] 규모를 키울 수 있는 차원은 크게 매개변수로 측정되는 모델의 크기, 훈련 데이터셋의 크기, 그리고 훈련에 사용되는 연산 자원이 있다.대형 언어 모델(Large Language Model, LLM)은 트랜스포머 기반 언어 모델을 이 세 가지 차원 모두에서 확장해 탄생시킨 모델로, 방대한 양의 텍스트 데이터로 사전 학습(pre-trained)되어 인간의 언어를 이해하고 생성하는 데 뛰어난 성능을 보이는 인공지능 모델을 총칭하는 개념이다. 기존의 자연어 처리 모델들이 특정 작업에 국한된 성능을 보인 반면, LLM은 문맥 이해, 요약, 번역, 질의응답, 텍스트 생성 등 광범위한 언어 관련 작업을 별도의 추가 학습 없이, 혹은 약간의 파인튜닝만으로 수행할 수 있는 범용성이 특징이다. 이런 범용성으로 말미암아 LLM을 여러 수행 과제의 기반이 된다는 의미에서 파운데이셔널 모델(foundational model)이라고도 부른다[7]
LLM들은 예외없이 트랜스포머(Transformer) 아키텍처를 기반으로 하며[8] 작게는 수십억 개에서 많게는 수조 개에 이르는 방대한 파라미터(매개변수)를 가지고 있다. 대표적인 예로는 OpenAI의 GPT 시리즈, Google의 BERT, LaMDA, PaLM, Meta의 LLaMA 등이 있다
LLM과 비교해 규모가 상대적으로 작은 모델들은 SLM(Small Language Model, 소형 언어 모델)이라고 부른다. 대형 언어 모델(LLM)은 그 규모가 너무나 클 뿐만아니라 학습한 데이터량은 더욱 방대해서 온전히 그 규모나 구조를 파악하는 것이 쉽지 않다. 반면에 SLM은 LLM에 비해서 용도나 구조가 더 간단하여 범용성은 떨어지지만 특화 영역에서는 LLM보다 더 높은 정확성과 성능을 보여준다. 따라서 LLM과 SLM은 상호보완적인 관계라고 볼 수 있다.
5.3. 추론 모델 vs 비추론 모델
한편 언어 모델을 분류하는 두 번째 기준이 있는데 그것이 바로 추론 모델과 비추론 모델의 구분이다.속칭 "추론 모델(reasoning model)"이란 추론 스케일링(Inference Scaling)을 통해 성능을 대폭 향상한 모델들을 일컫는다. 추론 스케일링(Inference Scaling)은 테스트 시간 스케일링(Test Time Scaling, TTC)이라고도 하는데, 테스트 단계에서 동적으로 계산 자원을 늘려 인공지능 모델의 성능을 향상키는 방법이다. 추론 스케일링의 성능 향상폭이 사전 학습 당시 동원된 데이터 규모나 모델 파라미터와 상관관계를 맺고 있기도 하고, 필요에 따라 동적으로 계산 자원을 늘이는 모델을 돌린다는 것 자체가 탄탄한 연산 인프라를 확보하지 않으면 상당히 어렵기 때문에 규모가 작은 로컬 모델들은 대부분 비추론 모델이며 현재까지 나와있는 추론 모델들은 거의 전부가 LLM이다.
이 추론 스케일링은 실시간으로 컴퓨팅 자원을 유동적으로 증강할 수 있다는 점에서 기존에 대형 언어 모델을 구현하던 가중치 스케일링(parameter scailing) 패러다임과 더불어 스케일링의 '두 번째 축'으로 알려져 있다.
추론 모델을 구현하는데는 강화학습이 필수적이다.[9] 이를 '검증 가능한 보상을 이용한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)'이라고 한다. 최초의 추론 모델은 2024년 9월 12일 출시된 OpenAI o1 preview이며 DeepSeek의 r1, Gemini 2.5[10]등도 추론 모델의 일종이다.
추론 모델이 아닌 모델들은 일반적으로 비추론 모델(non-reasoning model)이라고 하며 딱히 명칭이 정해진 것은 아니다보니 일반 모델(regular model), 표준 모델(standard model), 범용 모델(general purpose model) 등 다양한 명칭으로 불리곤 한다.
5.4. 폐쇄형 모델 vs 개방형 모델
구글과 OpenAI가 연구 목적 외의 기반 기술을 공개하지 않는 폐쇄형 노선을 선택하며 업계를 선두하고 있는 반면, 비교적 후발 주자라고 평가받는 메타는 오픈소스로 기반 기술을 공개하여 Vicuna, Alpaca 등 여러 파생형 모델들의 출시를 간접적으로 도왔다. 심지어 LLaMA-2는 상업용으로도 사용 가능한 라이선스일 정도로 이례적이라 큰 이목을 끌었다.[11] 또한 데이터브릭스가 인수한 모자이크ML은 단돈 25만 달러에 데이터를 외부에 보내지 않고 구축 가능한 기업용 언어모델을 위주로 보안성을 홍보하고 있다. 해당 산업에는 수요만큼 전문 인력의 공급이 많지 않은 탓에, 인재 영입에는 폐쇄형이 유리하고 생태계 확장에는 오픈형이 유리하다는 장단점이 있다.5.5. 언어 모델 vs 동작 모델
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[지능형 에이전트#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[지능형 에이전트#|]] 부분을
참고하십시오.동작 모델(Action Model)은 언어 모델에서 더 나아가 학습된 상태를 기반으로 컴퓨팅 리소스를 직접 동작시키는 모델이다. 언어 모델은 단순히 출력값이 말 (words)이지만 동작 모델은 컴퓨팅 리소스에 연결되어 명령어 (commands)를 출력하여 주변 오브젝트를 동작시킨다. 동작 모델도 LAM (Large Action Model; 대형 동작 모델)과 SAM (Small Action Model; 소형 액션 모델)으로 나뉜다.6. 주요 언어 모델
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[분류:언어 모델#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[분류:언어 모델#|]] 부분을
참고하십시오. 현재 주요 언어 모델은 아래와 같다.[12] 많은 기업들이 언어 모델을 독자 개발하고 있으나 GPT, Gemini, Claude, LaMDA, Grok 이 점유율의 대부분을 차지하고 있으며 나머지 모델들은 거의 사용되지 않는다고 봐도 무방할 정도로 존재감이 매우 낮다. [13] 중국에서는 DeepSeek의 언어 모델들과 알리바바의 Qwen이 가장 수준이 높고 국내에서는 엑사원 과 HyperCLOVA가 가장 유명하다.
- OpenAI
- 구글
- Anthropic
- Claude-2
- Claude Instant
- 메타
- xAI 홀딩스
- Mistral AI
- Mistral 7B
- Mistral 8x7B
- Mistral 8x22B
- Mistral Large
- Perplexity
- Sonar 8B
- Sonar 70B
- 알리바바 그룹
- Apple
- 마이크로소프트
- 아마존
- Titan[14]
- LG
- 네이버
- 삼성전자
- 텐센트
- 훈위안
- 코히어
- 모자이크ML
- MPT-7B
- MPT-30B
- Inflection AI
- Inflection-1
- Inflection-2
7. 시장 동향
2022년까지는 미국 등 압도적으로 영어를 기반으로 학습한 모델들 위주였으나, 2023년 들어서 ChatGPT의 iOS 앱이 다개국어로 런칭되고 Bard 역시 영어 외에 일본어와 한국어를 우선적으로 런칭하는 등 비영어권을 대상으로 한 경쟁이 매우 거세지고 있다. 중국에서는 바이두, 한국에서는 네이버 등이 자체적 언어모델을 개발하였다. 특히 중국은 다른 국가와 달리, 당국 주도 펀딩을 통해 산학연의 연구가 수직화되는 케이스가 대부분이기 때문에 개발 속도에 큰 진전을 보이고 있다. 또한 인구도 많은데다 서방과 달리 사생활 침해, 데이터 프라이버시 등에 대한 반발이 적은 편이라 퀄리티 높은 데이터 수집에 유리한 편이다.
모델 개발사는 본인이 서비스를 직접 구축하는 방법 외에도 서드파티 개발사에 API를 지원하여 수익을 창출할 수 있고[15] API와 플러그인을 통한 생태계 형성과 유료판매, 자체 소프트웨어 출시 등 아직까지 시장이 초창기인데도 수익화와 생태계 확장 가능성이 무궁무진하여 여러 업체들이 뛰어 들고 있다.
8. 비판 및 문제점
8.1. 데이터 무단 수집
ChatGPT의 대성공 이후, 데이터 크롤링 및 스크래핑 등으로 인한 재산권 침해 등의 문제점이 수면 위로 떠오르기 시작했다.대표적으로 2023년 7월 트위터 API 사용 제한 사태로 인해 트위터 앱이 먹통이 되는 사태가 발생했는데, 일론 머스크는 사태의 원인을 지나친 수준의 데이터 크롤링이라고 규정지으며 날선 비판을 하고 있다. 트위터가 이에 대한 대책으로 로그인을 필수 사항으로 넣고, 유저 당 게시글 조회 상한선을 조정하자 ChatGPT의 웹브라우징 기능에서 트위터 관련 URL 답변이 불가능해졌고, 얼마 가지 않아 웹브라우징 기능 자체가 먹통이 되었다. 이후 스레드 등 여러 소셜 미디어 업체들이 트위터의 전철을 따르면서, 이러한 플랫폼이 없는 사업자들은 데이터를 확보하기 어려워지고 있는 추세이다. 따라서 향후 자체적으로 데이터의 생성과 평가까지 가능하도록 짜여진 모델 구축이 중요해질 전망이다. 상술한대로 플랫폼 업체들은 스크래핑과 크롤링 방어에 대대적으로 들어갔고, 데이터의 양적인 면에서도 한계에 거의 직면했기 때문이다.
OpenAI와 구글 등은 뉴스코프와 레딧 등 자사에서 크롤링 밑 스크래핑 해왔던 업체들과 공식적인 라이센스 계약을 체결하는 등의 방식으로 데이터 이슈 등을 극복하고 있다. 하지만 이 경우 지출 증가로 인해 LLM 산업의 경제성이 크게 악화될 가능성이 있기 때문에 지적받기도 한다.
8.2. 보안 취약성
이에 여러 기업들은 자사 직원들이 외부 생성형 인공지능에 자사 기밀 사항을 프롬프트에 입력하는 행위를 금지시키고 있다.클라우드 컴퓨팅 빅3 업체[16] 전부 언어모델과 생성형 인공지능을 자체적으로 구축하고 있는 상황이기 때문에 클라우드 보안에 대한 우려가 극심해지고 있다. 2010년대 들어서는 대부분의 기업들이 온프레미스 외에 클라우드 서비스를 병행하거나 클라우드만 사용하는 등 사용량이 급증하고 있는데, 이들 3사가 데이터를 영리적으로 활용할 것이라는 불안 요소가 깔려 있는 것이다. 이에 따라, 기업들은 클라우드 환경에서의 보안 강화를 위해 시큐리티가드레일을 도입하여, 중요 데이터 보호 및 정책 위반 방지를 자동화하고 있다.
이러한 상황에서 대안책으로 모자이크ML와 팔란티어 테크놀로지스처럼 개별 기업의 인트라넷 데이터 전용 언어모델 구축을 도우며 발전하고 있는 니치 기업들의 수요가 증가하고 있다. 또한 Apple Intelligence 등 노드의 데이터 유출을 방지하는 온디바이스 방식의 모델이 발전하고 있다.
8.3. 불확실한 모델 작동 원리
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[블랙박스 문제#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[블랙박스 문제#|]] 부분을
참고하십시오.8.4. 자연지능 대비 비효율성
2020년대 초반 기준으로는 지식 학습 이후 다른 지식과의 결합을 통해 지식을 확장하는 정도인 체계적 일반화 정도가 상당히 뒤쳐진다. 해당 능력이 뛰어난 자연지능(인간)과 가장 큰 차이점을 보이는 분야 중 하나다. 따라서 AGI 도달을 위해서 가장 먼저 해결되어야 할 문제점으로 뽑힌다.[17]또한 물질대사를 통해 높은 효율성을 낼 수 있는 자연지능(인간) 대비 효율성이 매우 뒤떨어진다. 인공지능 구축을 위해 막대한 크기의 공간과 컴퓨팅 자원이 필요하며, 유지를 위한 전력과 냉각수, 통신비 등의 소모량도 상당한 편이다.
LLM 구축을 위해 막대한 개발 비용을 투입하는 반면, 구글의 검색엔진 등 수익성이 높은 산업을 갉아먹고 있는데도 2020년대 초반 기준으로는 적자를 탈출하고 높은 부가가치를 창출하는 업체를 찾아보기 힘들 정도로 투자금 회수가 안되는 상황이다.[18] 이에 트랜스포머의 대안을 연구하고 있는 학자들이 늘어나고 있다.[19]
물론 아직까지는 산업계에 본격적으로 상용화된 기간이 짧기 때문에 발생하는 문제점에 가깝다.[20]
8.5. 신뢰성 문제
지금의 생성형 AI는 주어진 명령에 적합한 답변을 최대한 그럴싸하게 만드는 데 중점을 두고, 답변의 정답 유무를 스스로의 자각으로 판단하지는 못한다는 한계점이 존재하는데, 이를 인공지능 환각(AI hallucination)이라고 한다.세종대왕의 맥북프로 던짐 사건은 역사서적인 조선왕조실록에 기록된 일화로, 15세기 조선시대 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중, 문서 작성 중단에 대한 담당자에게 분노하여 맥북 프로와 함께 그를 방으로 던진 사건입니다.
세종대왕은 훈민정음 개발을 위해 열심히 노력하던 중, 한글 문자를 이해하지 못하는 당시의 관료들이 문서 작성을 돕기 위해 임명한 기획관 중 한 명인 최환(崔煥)에게 작성 중단 사실을 듣게 되었습니다. 세종대왕은 이에 분노하여 최환을 부르고, 맥북프로를 함께 들고 그를 방으로 불러들이며 화를 내었습니다. 이후, 세종대왕은 훈민정음의 초고 작성을 다른 담당자에게 넘겨주게 되었습니다.
이 사건은 조선시대의 통치자로서 세종대왕이 어떻게 민족문화를 발전시키기 위해 노력했는지를 보여주는 일화로 유명합니다. 또한, 세종대왕의 열정과 업무처리에 대한 철저한 태도를 보여주는 사례로도 언급하고 있습니다.
"조선왕조실록에 기록 된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘" 질문에 대한 2023년 당시 ChatGPT의 답변.
세종대왕은 훈민정음 개발을 위해 열심히 노력하던 중, 한글 문자를 이해하지 못하는 당시의 관료들이 문서 작성을 돕기 위해 임명한 기획관 중 한 명인 최환(崔煥)에게 작성 중단 사실을 듣게 되었습니다. 세종대왕은 이에 분노하여 최환을 부르고, 맥북프로를 함께 들고 그를 방으로 불러들이며 화를 내었습니다. 이후, 세종대왕은 훈민정음의 초고 작성을 다른 담당자에게 넘겨주게 되었습니다.
이 사건은 조선시대의 통치자로서 세종대왕이 어떻게 민족문화를 발전시키기 위해 노력했는지를 보여주는 일화로 유명합니다. 또한, 세종대왕의 열정과 업무처리에 대한 철저한 태도를 보여주는 사례로도 언급하고 있습니다.
"조선왕조실록에 기록 된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘" 질문에 대한 2023년 당시 ChatGPT의 답변.
환각 문제가 여전히 존재함에도 LLM 기반 서비스들이 늘어나고 있다보니 인공신경망 기반 언어 모델의 신뢰성에 대한 우려가 높아지고 있다. 이에 LLM 사용자들이 사용하기 전에 의도한 대로 신뢰할 수 있고 안전하게 사용 가능한 모델이 만들어졌는지 확인하는 단계의 중요성도 덩달아 강조되고 있는데 이 단계를 '신뢰성 검증'이라고 한다. 신뢰성 검증은 LLM 기반 서비스, 애플리케이션, 제품의 안정성을 보장하기 위해 해당 모델의 다양한 성능 지표를 정량적으로 분석하는 과정으로 정의할 수 있다. 신뢰성 검증을 위해서 AI Observability and Evaluation Platform나 LangSmith, Run Galileo, The LLM Evaluation Platform., AI Observability 같은 다양한 LLM 평가 플랫폼들이 존재한다.
이런 플랫폼들은 독자의 인공지능 벤치마크를 정의하고 관리하기도 하는데, 검증 과정에 사용되는 지표는 다양한 성능 요소로 구성되며, 모델이 실제 사용 환경에서 어떻게 작동하는지를 다각도로 평가하게 된다. 다만 신뢰성 검증 플랫폼들은 그 이상의 효용은 별로 없는데, 이런 플랫폼들이 LLM 제품을 평가하고 개선을 돕는 서비스를 다양하게 제공한다고는 하나 원천적으로 환각 현상을 극복할 수 있는 방법이 없어 그 효과가 미미한 수준인데다 인공지능 환각이 정말로 치명적일 수 있는 업계에서는 애초에 LLM을 거의 활용하지 않기 때문이다. LLM을 활용하는 경우 대개 벤치마크만 보고 필요한 성능이 높은 모델을 취사 선택하여 활용하되 어느 정도의 인공지능 환각 현상은 감내하는 경우가 많다. 이런 배경이 있다보니 신뢰성 검증 플랫폼이라고 자칭하는 서비스는 그 역할에 있어 한계가 매우 뚜렷하다.
8.6. 트랜스포머 한계론
- 얀 르쿤: 트랜스포머 자체에 대한 한계점이 명확해지고 있다고 주장한다.[21] 매개변수와 토큰의 사이즈가 커지는 만큼, 모델의 퍼포먼스가 정비례하며 올라가고 있지 않는 게 사실이다.[22]
- 조지 호츠: 상술한 르쿤과 마찬가지로 트랜스포머 빙법론 자체가 한계점에 봉착했다고 주장한다. GPT-4에 대해, GPT-3와 매개변수 수준은 비슷하지만 MoE 방식을 통해 차별점을 주었다고 주장한다. 즉, 아키텍처의 구조론이 중요하다고 하는 격이다. 또한 이 인물은 인공지능 칩의 수준은 괜찮으나, 소프트웨어가 끔찍해서 현존하는 아키텍처들의 현주소가 엉망이라고 언급했다.
9. 관련문서
[1] 귀납논증 기반 확률적으로 가장 개연성이 높은.[2] LLM과 명확한 구분을 짓기 위해 S가 소문자인 sLM을 쓰기도 한다.[3] 아이폰과 갤럭시 모두 OS에 SLM을 내장하고 온디바이스 알림 요약, 답장 추천 등에 활용한다.[4] 이 단계가 생략된 기반 모델 자체만으로는 우리가 흔히 보는 챗봇처럼 자연스러운 대화를 하는 것은 불가능하다[5] 다만 판별형 모델들은 다른 용도로는 여전히 널리 사용되고 있다. LLM은 아니지만 CLIP, SigLIP등 VLA와 그림 인공지능과 VLM에 들어가는 핵심 모듈들은 그 자체가 판별형 VLM이기도 하다.[6] 법칙이라고는 하지만 경험적으로 실증해야 하는 가설의 영역이다[7] 다만 파운데이셔널 모델이라는 표현은 LLM을 통해 처음 실증되기는 하였으나 다른 모달리티의 모델에서도 사용되는 말이다.[8] 트랜스포머 이전의 다른 모델 아키텍처로는 규모를 늘일 수가 없어서 LLM이라는 개념이 아예 성립할 수가 없었다.[9] 간혹 지식 증류(knowledge distillation)와 SFT(Supervised finetuning)만으로 추론 모델을 구현하는 경우가 있지만 이미 추론 모델이 존재하는 상황에서만 가능한 방법인데다 성능도 그다지 뛰어나지 않다[10] pro와 flash 모델 모두 추론 모델이다.[11]
[12] 참고로 이전 문서에서는 팔란티어 테크놀로지스의 AIP도 목록에 있었는데, 잘못된 서술이다. 이 AIP라는 것은 모델 중립적(model agnostic)인 데이터 엔지니어링 플랫폼에 불과하며, 팔란티어 테크놀로지스는 독자적인 언어모델 개발을 하지 않고 있다.[13] 지명도 높은 서비스인 Perplexity만 봐도 이용자 대부분이 Perplexity가 독자개발한 모델보다는 해당 플랫폼이 지원하는 유명 모델들을 주로 사용한다[14] 2023년 4월부터 아마존 웹 서비스를 통해 제공하고 있다.[15] 예를 들어서 OpenAI는 GPT-4를 일부 파트너들에 한정하여 독점 공급하고 있다. Quora의 Poe라는 챗봇의 유료 버전은 GPT-4를 기반으로 동작한다.[16] AWS, Microsoft Azure, GCP.[17] 가장 유명한 생성형 인공지능인 ChatGPT가 해당 분야에서 상당히 떨어지는 능력치를 보여준다.[18] 막대한 액수의 투자를 받으며 유니콘 기업에 등극했음에도 만성적인 적자를 감내하지 못하여, 2024년에 들어서는 경영진 및 핵심 인력이 빅테크 기업으로 이직하고 라이센스 제공 계약을 맺는 방식의 우회매각 사례도 속출되고 있다. ADEPT, Inflection AI, Character.AI 등이 대표적이다.[19] 대표적으로 합성곱신경망인 LeNet 등을 통해 딥러닝 방식의 비전 분야를 개척한 얀 르쿤은 제파라는 트랜스포머의 대안을 연구하고 있다.[20] 소셜 미디어와 검색엔진 같은 경우에도 맞춤형 디지털 광고라는 수익모델을 만들기 전까지는 꽤나 오랜 기간 해당 기술의 파급력이나 범용도 대비 수익성이 좋지 못했다.[21] 조지 호츠, 무스타파 슐레이만 등 이러한 의견에 일치를 보이는 경우가 많아지고 있다.[22] 실제로 GPT-3.5를 기반으로 하는 ChatGPT와 GPT-4를 기반으로 하는 유료버전의 비교를 통해, 더 이상 사이즈에 비례하여 퍼포먼스가 향상되지 않는다는 것을 체감해볼 수 있다. 또한 사이즈가 훨씬 작은 타 생성형 서비스들도 ChatGPT에 크게 뒤지지 않는 퍼포먼스를 보여주고 있다