2025.04.29

딥시크(DeepSeek) 특허 분석으로 살펴보는 AI 챗봇 시대의 기술 혁신

특허분석
딥시크
AI
생성형AI
딥시크특허분석

심도있는 AI 인사이트, 워트인텔리전스와 파이특허법률사무소가 함께합니다.

딥시크(DeepSeek) 특허 분석으로 살펴보는 AI 챗봇 시대의 기술 혁신

 

 

목차


1. 딥시크(DeepSeek)의 등장배경과 기술력
2. 딥시크의 핵심 엔진 : HAI-LLM
3. 딥시크 특허분석
   특허분석 ① 인덱스 기반 데이터셋 최적화 기술
   특허분석 ② 비동기 I/O 기반 고속 데이터 접근 기술
   특허분석 ③ 데이터 압축 저장 최적화 기술

4. 딥시크의 기술적 기여와 산업적 파급력

 

 

최근 몇 년간 인공지능(AI) 기술은 눈부신 속도로 발전하며, 다양한 산업 분야에서 혁신의 촉매 역할을 하고 있습니다. 특히 ChatGPT, Claude, Gemini와 같은 대화형 AI 챗봇은 이제 더 이상 낯설지 않은 존재입니다. 많은 사람들이 AI 챗봇을 활용해 정보를 검색하고, 일정을 관리하며, 나아가 업무의 효율까지 높이고 있습니다. 어느덧 우리는 AI와 함께 살아가는 시대에 자연스럽게 적응해 가고 있는 셈입니다.

 

이러한 AI 챗봇의 고도화는 자연어 처리(Natural Language Processing, NLP), 그중에서도 대형 언어 모델(Large Language Model, LLM)의 비약적인 진화 없이는 불가능했을 것입니다. 인간의 언어를 이해하고 생성하는 능력을 갖춘 LLM은 오늘날 챗봇 기술의 정밀함과 유연함을 가능케 하는 핵심 기반이며, 그 성능은 모델 구조뿐만 아니라 훈련(즉, 학습) 데이터의 구성과 이를 효율적으로 관리∙최적화하는 기술에 의해 크게 좌우됩니다.


이러한 맥락에서 얼마 전 중국의 딥시크가 공개한 ‘DeepSeek Chat’은 ‘저비용, 고성능’이라는 키워드로 업계의 주목을 받고 있습니다. 특히 딥시크는 훈련 효율성을 극대화하기 위한 데이터셋 구성 및 처리 기술에 집중해 왔으며, 이 같은 방향성은 최근 출원된 LLM 관련 특허 발명들을 통해 일부 드러나고 있습니다.

 

이 글에서는 딥시크의 LLM 관련 특허들을 중심으로, 이들이 LLM 개발에서 비용과 성능이라는 두 가지 과제를 어떻게 조율하고 있는지, 그리고 그러한 기술적 접근이 현재 AI 개발의 흐름 속에서 어떤 의미를 가지는지 살펴보고자 합니다.

 

딥시크(DeepSeek)의 등장배경과 기술력
 

딥시크의 출발점은 인공지능보다 오히려 금융에 가까웠습니다. 2013년, 창립자 량원펑(Liang WenFeng)은 중국 항저우에 환팡 테크놀로지(HuanFang Technology)를 설립하고, AI 기술을 접목한 자산 관리 및 금융 투자 플랫폼 개발에 주력했습니다. 환팡은 대규모 데이터를 기반으로 시장을 분석하고, 예측 모델을 활용한 투자 전략으로 주목을 받으며 빠르게 성장했고, 이후 환팡 그룹(HuanFang Group)으로 확장되었습니다. 2021년까지 환팡 그룹의 자산 운용 규모는 20조원을 넘어섰습니다.

 

량원펑은 금융에서 축적한 데이터 기반 의사결정 역량을 바탕으로, 보다 정교한 기술 영역인 인공지능 분야로 도전 범위를 넓히게 됩니다. 2019년 그는 High-Flyer AI를 설립하고, GPU 기반의 대형 AI 훈련 플랫폼 개발에 착수했습니다. 이때 구축된 Fire-FlyerAI 클러스터는 500개의 GPU를 200Gbps 고속 네트워크로 연결한 고성능 인프라로, LLM 훈련을 위한 기반이 되었습니다. 해당 인프라는 이후 더욱 고도화된 Fire-Flyer 플랫폼으로 진화하며, 딥시크의 기술적 토대를 이루게 됩니다.

 

이러한 기술적 역량을 바탕으로, 2023년 량원펑은 범용 인공지능(AGI: Artificial General Intelligence) 분야로의 본격적인 진출을 선언하고, 딥시크를 독립적인 AI 연구소로 출범시킵니다. 딥시크는 설립 초기부터 LLM의 훈련 효율을 극대화를 목표로, 데이터셋 구성, 샘플링 전략, 연속 배치 처리 등 훈련 최적화 기술 개발에 집중해 왔습니다. 특히 모델 성능 향상은 물론, 훈련 비용 절감과 인프라 자원 활용의 효율성까지 고려한 균형 잡힌 기술 전략은 업계에서도 주목받고 있습니다.

 

딥시크에 대한 전 세계의 관심이 지속되는 가운데, 얼마 전인 2025년 3월 24일, 최신 모델 DeepSeek-V3-0324를 공개했습니다. 이번 버전은 기존 DeepSeek-V3에서 성능이 한층 개선된 모델로, 미국 Anthropic의 Claude 3.7과 유사한 수준의 코딩 성능을 갖춘 것으로 평가되고 있습니다. 일각에서는 이번 발표를 두고 중국 AI 산업의 반격 신호탄으로 해석하기도 합니다. 글로벌 AI 기술 경쟁이 치열해지는 가운데, 딥시크는 점차 자체 기술력으로 존재감을 드러내고 있는 모습입니다.


● AI 챗봇은 글을 어떻게 배울까요?
 

인공지능 챗봇이 문장을 생성하는 방식은 사람의 글쓰기 과정과 유사합니다. 단순히 정답을 외우는 것이 아니라, 방대한 텍스트 데이터를 읽고 단어와 문장의 패턴을 통계적으로 학습하는 방식입니다. 이를 우리는 ‘훈련 또는 학습’이라고 부르며, AI 모델은 주어진 문맥을 바탕으로 다음에 올 단어나 문장을 예측하도록 훈련됩니다. 예를 들어 “고양이가 소파 위에”라는 문장이 주어졌을 때, AI 모델은 그 뒤에 올 표현으로 “앉아 있다” 또는 “누워 있다”와 같은 말을 확률적으로 계산하여 생성합니다. 이러한 과정을 반복하며 AI 모델은 자연스러운 문장을 점점 더 잘 만들어낼 수 있게 됩니다. 참고로, 트랜스포머(transformer)의 디코더(decoder) 구조를 채용하고 있는 GPT 모델 또한 입력된 문장의 특정 단어의 앞선 단어들을 참고하여 미래 단어를 예측/생성하는 방식인 마스킹 어텐션(masked attention)을 이용하고 있습니다.

 

 

AI 모델이 보다 정확하고 유창하게 글을 생성하기 위해서는, 어떻게 데이터를 구성하고 훈련시키는지가 매우 중요한 요소로 작용합니다. 이 글에서는 훈련 효율을 높이기 위해 딥시크가 어떠한 기술적 접근을 시도하고 있는지, 관련 발명을 중심으로 함께 살펴보고자 합니다.

 

딥시크의 핵심 엔진 HAI-LLM

 

딥시크가 개발한 HAI-LLM은 LLM의 훈련을 고효율로 수행하기 위해 설계된 경량∙고성능 훈련 프레임워크입니다. 수십억에서 수조 개의 파라미터를 가진 모델을 수천 개의 GPU에서 동시에 훈련하기 위해, HAI-LLM은 다양한 병렬화 기법을 유연하게 결합할 수 있도록 구성되어 있습니다. HAI-LLM은 특히 세 가지 “핵심 병렬화 기술”, 즉 ZeRO 기반의 데이터 병렬(Data Parallelism), 파이프라인 병렬화(Pipeline Parallelism) 및 텐서 병렬화(Tensor Parallelism)를 결합한 3D 병렬 구조를 통해 대규모 모델 훈련의 확장성과 효율성을 동시에 실현합니다.

 

● ZeRO (Zero Redundancy Optimizer) 기반 데이터 병렬: 모델의 파라미터, 그라디언트, 옵티마이저 상태를 GPU 간에 분산 저장함으로써, 단일 장비의 메모리 한계를 극복합니다. 이 방식은 훈련 중 필요한 전체 파라미터를 all-gather로 모은 뒤 연산이 끝나면 다시 분산시키는 구조로, 훈련에 필요한 메모리 사용량을 획기적으로 줄이는 장점이 있습니다. 동일한 모델을 여러 GPU에 복사하고 서로 다른 미니배치(mini batch: 전체 데이터 내에서 일부 데이터의 그룹)를 병렬로 처리하는 방식입니다. 딥시크는 여기에 ZeRO 기법을 적용하여 모델 파라미터와 옵티마이저 상태를 분산 저장함으로써 메모리 사용량을 획기적으로 절감하고 있습니다.

 

<ZeRO 기법을 통한 GPU 메모리 사용 최적화 비교|출처: High-Flyer 블로그>

 

● 파이프라인 병렬화: 모델을 여러 개의 계층 블록으로 나누어 각 블록을 서로 다른 GPU에 배치하고, 순차적으로 데이터를 전달하며 연산을 수행합니다. 이를 통해 대규모 모델 구조의 세분화와 병렬 처리 효율성을 동시에 확보할 수 있습니다. HAI-LLM은 Gpipe 및 PipeDream의 개념을 차용해 이 병렬 처리 중 GPU 유휴 시간을 줄이는 데 성공하였습니다.

 

<파이프라인 병렬의 작동 방식|출처: High-Flyer 블로그>

 

● 텐서 병렬화: 하나의 연산을 여러 GPU에 나눠 동시에 수행함으로써 연산 병목을 줄이고 메모리 사용을 최적화하는 방식입니다. 예를 들어 GPU 2대를 사용하는 경우, 행렬 A는 세로 방향으로(A1, A2), 행렬 B는 가로 방향으로(B1, B2) 분할되고, GPU 0은 A1과 B1으로 계산한 결과를, GPU 1은 A2와 B2로 계산한 결과를 수행한 뒤, 두 GPU의 결과를 합쳐 최종 출력을 도출합니다.

 

 

<텐서 병렬의 구조적 흐름|출처: High-Flyer 블로그>

 

HAI-LLM은 이러한 텐서 병렬 처리를 위해, Fire-Flyer GPU 클러스터에 최적화된 haiscale 연산 라이브러리에 ColumnParallelLinear, RowParallelLinear, VocabParallelEmbedding, vocab_parallel_cross_entropy과 같은 병렬 연산 모듈을 제공하여, GPT나 LLaMA 같은 다양한 모델 구조에 손쉽게 적용할 수 있도록 구성되어 있습니다.

 

HAI-LLM은 위의 3D 병렬 구조 외에도, 트랜스포머(Transformer) 계열 모델에서 발생하는 연산 병목 구간을 보완하기 위해 시퀀스 병렬(Sequence Parallelism)’을 함께 적용하고 있습니다. Transformer는 자연어 처리 모델의 핵심 구조로, 여러 연산 단계가 반복적으로 쌓인 계층적 아키텍처를 가지고 있으며, 그 내부에는 LayerNorm, Dropout과 같이 텐서 병렬만으로는 분할이 어려운 연산이 포함되어 있습니다.

 

시퀀스 병렬은 이러한 연산을 시퀀스 길이(토큰 단위) 기준으로 나누어 여러 GPU에 분산 처리함으로써, 메모리 사용량을 줄이고 연산 효율을 높이는 데 기여합니다. 즉, 시퀀스 병렬은 3D 병렬의 보조적 병렬화 기법으로 작동하며, 대규모 Transformer 훈련의 메모리 최적화와 연산 성능 향상에 중요한 역할을 수행합니다.

 

<Transformer 레이어의 병렬 처리 구조|출처: High-Flyer 블로그>

 

HAI-LLM은 단순한 훈련 도구를 넘어, 대규모 LLM 개발에 필수적인 확장성, 안정성, 그리고 효율성을 고루 갖춘 고성능 AI 훈련 인프라로 평가받고 있습니다. 특히, 이 프레임워크는 딥시크가 출원한 LLM 관련 발명 기술들의 핵심 기반을 이루며, 모델 훈련의 효율성과 기술 경쟁력 확보에 중요한 역할을 하고 있습니다.

 

아래 이러한 기술적 토대를 바탕으로 도출된 딥시크의 주요 LLM 관련 발명들에 대해 살펴보고자 합니다. 특히, 2024년 3월 28일 중국지식재산권국(CNIPA)에 출원된 CN 118246542 A 특허를 중심으로, 딥시크의 기술적 접근 방식과 LLM 분야에서의 혁신적 기여를 심층적으로 분석해 보겠습니다. 아울러, 데이터 처리 최적화 및 훈련 효율 향상 기술과 관련된 CN 117707416 A, CN 109787638 B 특허도 함께 검토하여, 딥시크가 AI 산업에서 이루고 있는 기술적 진보의 흐름과 방향성을 조망해 보도록 하겠습니다.

 

3. 딥시크 특허분석


특허분석 ① 인덱스 기반 데이터셋 최적화 기술
 

LLM 훈련용 데이터셋을 효율적으로 구성하고 처리하는 방법에 관한 발명 (공개번호: CN 118246542 A, 공개일: 2024.06.25, 심사중)
 

 

<출처 : keywert, CN 118246542 A 행정정보보기>

 


<출처 : keywert, CN 118246542 A 상세보기>


 

키워트로 특허 미리보기 <CN 118246542 A>

발명의 명칭: AI 모델 훈련 데이터셋의 구축 방법

 

출원번호: CN 202410365843 A (2024.03.28.) (현재 심사중)

 

공개번호: CN 118246542 A (2024.06.25.)

 

발명 요약: 해당 발명은 인공지능 모델 훈련을 위한 “데이터셋 구성 방식”에 관한 것으로, 데이터를 동일한 크기의 시퀀스로 나눈 뒤, 인덱스를 활용해 샘플링, 무작위 혼합, 균등 분할을 수행합니다. 훈련 시에는 인덱스를 통해 필요한 데이터 블록을 배치 단위로 읽어오며, 데이터 중복 없이 메모리와 통신 자원을 효율적으로 사용하는 구조를 특징으로 삼고 있습니다.

 

● 데이터셋 구축, 왜 중요할까요?

 

LLM을 기반으로 하는 AI 챗봇은 훈련 데이터를 통해 훈련한 것을 바탕으로 문장을 만들어냅니다. 쉽게 말해, AI가 어떤 답을 내놓는지는 무엇을 보고, 어떻게 배웠는지에 달려 있습니다. 이때 AI가 ‘보는 것’, 즉 훈련하는 재료가 바로 ‘데이터셋(dataset)’입니다. 데이터셋 구축은 단순한 수집이 아니라, 데이터를 정제하고 정렬하며, 목적에 맞게 구성하는 전체 과정을 의미합니다. 이는 마치 요리사가 요리를 하기 전, 양질의 재료를 고르고 손질하듯이, AI도 신뢰할 수 있는 결과를 도출하기 위해서는 정확하고 균형 잡힌 데이터가 필수적입니다.

 

예를 들어, AI에게 ‘고양이’라는 개념을 알려주려면, 단순히 “고양이란 동물이다”와 같은 문장 몇 개로는 부족합니다. 고양이에 대해 사람들이 쓰는 다양한 문맥, 예를 들어 귀엽다, 독립적이다, 털이 날린다, 밥을 가린다 등 다채로운 표현과 문장 구조를 AI가 폭넓게 접할 수 있어야 진짜 ‘이해’가 가능해지는 겁니다. 문제는, 이렇게 수십억 개의 문장 내지 수십~수백 테라바이트(TB)에 달하는 데이터를 효율적으로 저장하고 불러오는 것이 결코 쉽지 않다는 점입니다. 특히 LLM은 수십억 개 이상의 문장을 다루기 때문에, 방대한 데이터를 효과적으로 저장하고, 필요한 순간 빠르게 불러올 수 있도록 구성하는 기술적 작업이 필수적입니다.

 

결국, LLM의 정확도와 성능을 결정짓는 핵심은 더 이상 데이터의 양이 아니라, 수집한 데이터를 어떻게 정제하고 구성하며 활용하는가에 달려 있습니다.

 

● 기존 데이터셋 구축 방식과 그 한계

 

전통적인 LLM 훈련 방식은 뉴스, 백과사전, 커뮤니티 등 다양한 출처에서 수집한 텍스트 데이터를 하나로 결합한 뒤, 샘플 비율 조정이나 태스크(Task)별 최적화를 반복하는 방식이 주를 이루었습니다. 이러한 접근은 일정 수준의 품질 확보에는 효과적이지만, 데이터의 규모가 수십~수백 TB에 이르는 경우가 많아, 데이터를 혼합하고 샘플링하며 분할하는 과정에서 원본 데이터를 반복적으로 호출하고 가공해야 하는 구조적 비효율이 따릅니다. 그 결과, 저장 공간 낭비, 입출력(I/O) 병목, 네트워크 부담, GPU 활용 저하 등 여러 한계가 동시에 발생합니다.

 

예를 들어, 1TB의 데이터를 10가지 조합으로 실험하면 그만큼 별도 저장 공간이 추가로 필요하고, 원시 데이터(raw data)와 처리 데이터를 중복 보관할 경우 저장량은 최대 2~3배까지 증가할 수 있습니다. 또 훈련 과정에서 매 에포크(epoch, 전체 데이터를 한 번 학습하는 주기)마다 전체 데이터를 다시 읽고 쓰는 구조는 I/O 병목을 유발하고, 100TB 처리에 140시간 이상이 소요되는 경우도 있습니다. 분산 시스템에서는 노드 간 데이터 이동으로 인해 네트워크 전송 시간도 수백 시간에 달할 수 있습니다.

 

또한, 데이터 샘플링 비중을 5%에서 15%로 변경하는 단순 작업조차 1조 토큰 기준 30분 이상 걸릴 수 있고, 하드디스크(HDD) 기반 시스템에서는 랜덤 접근 시 순차 접근보다 100배 이상 느린 처리 속도를 보이기도 합니다. 문제는 단순한 속도 저하에 그치지 않습니다. 데이터 준비 시간이 길어질수록 GPU는 대기 상태로 머물게 되며, GPU 활용률이 70% 미만으로 떨어지고, 이는 수천 대의 GPU를 사용하는 환경에서 시간당 수천 달러의 자원 낭비로 이어질 수 있습니다.


<기존 LLM 훈련 방식의 한계>

 

이처럼, 기존 데이터셋 구축 방식은 데이터 복사·재분할에 따른 저장 공간 낭비, 반복적인 데이터 호출로 인한 I/O 병목, 그리고 훈련 리소스의 비효율적 활용과 같은 본질적인 한계를 갖고 있습니다. 이러한 문제들을 해결하기 위한 새로운 접근 방식으로 등장한 것이 바로 딥시크의 CN118246542 A 특허입니다. 해당 특허는 기존 데이터셋 구축 방식의 구조적 비효율을 근본적으로 개선하고, LLM 훈련의 효율성과 유연성을 획기적으로 높이기 위한 방법을 제안하고 있습니다.

 

● 딥시크 특허의 데이터셋 구축 방법

 

CN 202410365843 A 특허는 LLM의 훈련 과정에서 발생하는 데이터 처리의 비효율성을 근본적으로 개선하기 위한 기술을 제시합니다. 핵심은, 데이터 자체를 반복적으로 복사하거나 재구성하는 대신, 인덱스(index)만 조작하는 방식으로 데이터셋을 효율적으로 다루는 것입니다. 해당 특허에 따르면, 먼저 전체 데이터셋을 동일한 크기의 ‘데이터 시퀀스’로 나눈 다음, 각 시퀀스를 기준으로 인덱스를 생성합니다. 이후 모델 훈련에 필요한 데이터는 이 인덱스를 기반으로 샘플링, 셔플링 및 분할되어 사용되며, 실제 데이터는 물리적으로 이동하거나 복사되지 않습니다.

 

예를 들어, 모델 훈련 시에는 인덱스 순서만 바꿔 데이터를 새로운 조합으로 불러오게 되며, 이는 비동기 I/O 방식과 결합되어 데이터 읽기 속도와 처리량을 크게 향상시킵니다. 이렇게 구성된 데이터 블록은 여러 개의 완전한 시퀀스를 포함하고, 훈련 시에는 배치 단위(batch-wise)로 신속하게 판독되어 사용됩니다.

 

<훈련용 데이터셋 구축의 혁신적 접근법>

 

결과적으로, 딥시크 특허에 따른 데이터셋 구축 방법은, 저장 공간 낭비를 줄이고, 데이터 중복 처리를 방지하며, 훈련 속도와 연산 자원의 활용도를 극대화할 수 있습니다. 해당 특허는 기존의 반복적인 데이터 가공 과정을 인덱스 기반 처리로 대체함으로써, LLM 훈련 데이터 관리의 새로운 패러다임을 제시한 것으로 평가됩니다.

 

● 딥시크 특허 청구항 분석

 

딥시크 특허출원 CN 202410365843 A의 청구항 제1항을 통해 핵심적 기술구성을 살펴보겠습니다.
 

청구항 제1항:

 

인공지능 모델 훈련 데이터셋의 구축 방법에 있어서,

1) 데이터셋을 동일한 크기의 여러 데이터 시퀀스로 분할하는 단계;

2) 데이터 시퀀스 단위로 인덱스를 생성하는 단계;

3) 필요한 비율에 따라 데이터셋에서 샘플 데이터를 추출하는 단계;

4) 샘플 데이터를 데이터 시퀀스 단위로 혼합하고 랜덤으로 섞는 단계;

5) 섞인 샘플 데이터를 균등하게 분할하여 여러 데이터 블록을 생성하는 단계 - 각 데이터 블록은 여러 개의 완전한 데이터 시퀀스를 포함함 -;

6) 모델 훈련의 각 단계에서 데이터 입력 시, 인덱스를 통해 대응하는 데이터 블록을 배치 단위로 판독하여 모델 훈련 데이터로 사용하는 단계;를 포함하는 것을 특징으로 하는,

인공지능 모델 훈련 데이터셋의 구축 방법.

 

청구항 제1항은 총 6개의 단계들로 이루어져 있으며, 아래에서는 이러한 6개의 단계들 각각에 대한 세부 내용을 설명드리겠습니다.

 

1) 데이터셋을 데이터 시퀀스 단위로 분할

 

 

1-1) 데이터를 ‘시퀀스 단위’로 나누는 이유

 

AI 모델 훈련의 첫걸음은 방대한 텍스트 데이터를 잘게 나누고 정리하는 일입니다. 긴 문서를 그대로 학습하는 것은 비효율적이기 때문에, 모델이 한 번에 이해할 수 있는 적절한 길이로 나누는 것이 중요합니다. 예를 들어, 소설 한 편을 문단이나 몇 문장씩 잘라서 입력하면, 모델은 그 단위에 집중해 효과적으로 학습할 수 있습니다. 이때 사용되는 단위가 바로 ‘데이터 시퀀스’입니다. 해당 특허출원은 이러한 데이터를 시퀀스 단위로 구조화하는 방식을 제안합니다.

 

1-2) 데이터 정제와 토큰화

목록으로

전문가 문의

여러분의 혁신을 위한 가장 적합한
솔루션을 추천해 드립니다.

뉴스레터 구독

매월 1회 IP 인사이트를 모아
뉴스레터로 발송해 드리고 있습니다.
가장 빠르게 Wert Intelligence의
분석 자료를 받아보세요.

타이틀

문의하기 입력 폼
이름
업무용 이메일
휴대전화번호
회사 또는 단체명
회사 구분
직급
[보기]