딥시크(DeepSeek) 특허 분석으로 살펴보는 AI 챗봇 시대의 기술 혁신

2025.04.29

딥시크(DeepSeek) 특허 분석으로 살펴보는 AI 챗봇 시대의 기술 혁신

특허분석

딥시크

생성형AI

딥시크특허분석

심도있는 AI 인사이트, 워트인텔리전스와 파이특허법률사무소가 함께합니다.

딥시크(DeepSeek) 특허 분석으로 살펴보는 AI 챗봇 시대의 기술 혁신

1. 딥시크(DeepSeek)의 등장배경과 기술력
2. 딥시크의 핵심 엔진 : HAI-LLM
3. 딥시크 특허분석
특허분석 ① 인덱스 기반 데이터셋 최적화 기술
특허분석 ② 비동기 I/O 기반 고속 데이터 접근 기술
특허분석 ③ 데이터 압축 저장 최적화 기술

4. 딥시크의 기술적 기여와 산업적 파급력

최근 몇 년간 인공지능(AI) 기술은 눈부신 속도로 발전하며, 다양한 산업 분야에서 혁신의 촉매 역할을 하고 있습니다. 특히 ChatGPT, Claude, Gemini와 같은 대화형 AI 챗봇은 이제 더 이상 낯설지 않은 존재입니다. 많은 사람들이 AI 챗봇을 활용해 정보를 검색하고, 일정을 관리하며, 나아가 업무의 효율까지 높이고 있습니다. 어느덧 우리는 AI와 함께 살아가는 시대에 자연스럽게 적응해 가고 있는 셈입니다.

이러한 AI 챗봇의 고도화는 자연어 처리(Natural Language Processing, NLP), 그중에서도 대형 언어 모델(Large Language Model, LLM)의 비약적인 진화 없이는 불가능했을 것입니다. 인간의 언어를 이해하고 생성하는 능력을 갖춘 LLM은 오늘날 챗봇 기술의 정밀함과 유연함을 가능케 하는 핵심 기반이며, 그 성능은 모델 구조뿐만 아니라 훈련(즉, 학습) 데이터의 구성과 이를 효율적으로 관리∙최적화하는 기술에 의해 크게 좌우됩니다.

이러한 맥락에서 얼마 전 중국의 딥시크가 공개한 ‘DeepSeek Chat’은 ‘저비용, 고성능’이라는 키워드로 업계의 주목을 받고 있습니다. 특히 딥시크는 훈련 효율성을 극대화하기 위한 데이터셋 구성 및 처리 기술에 집중해 왔으며, 이 같은 방향성은 최근 출원된 LLM 관련 특허 발명들을 통해 일부 드러나고 있습니다.

이 글에서는 딥시크의 LLM 관련 특허들을 중심으로, 이들이 LLM 개발에서 비용과 성능이라는 두 가지 과제를 어떻게 조율하고 있는지, 그리고 그러한 기술적 접근이 현재 AI 개발의 흐름 속에서 어떤 의미를 가지는지 살펴보고자 합니다.

딥시크(DeepSeek)의 등장배경과 기술력

딥시크의 출발점은 인공지능보다 오히려 금융에 가까웠습니다. 2013년, 창립자 량원펑(Liang WenFeng)은 중국 항저우에 환팡 테크놀로지(HuanFang Technology)를 설립하고, AI 기술을 접목한 자산 관리 및 금융 투자 플랫폼 개발에 주력했습니다. 환팡은 대규모 데이터를 기반으로 시장을 분석하고, 예측 모델을 활용한 투자 전략으로 주목을 받으며 빠르게 성장했고, 이후 환팡 그룹(HuanFang Group)으로 확장되었습니다. 2021년까지 환팡 그룹의 자산 운용 규모는 20조원을 넘어섰습니다.

량원펑은 금융에서 축적한 데이터 기반 의사결정 역량을 바탕으로, 보다 정교한 기술 영역인 인공지능 분야로 도전 범위를 넓히게 됩니다. 2019년 그는 High-Flyer AI를 설립하고, GPU 기반의 대형 AI 훈련 플랫폼 개발에 착수했습니다. 이때 구축된 Fire-FlyerⅠAI 클러스터는 500개의 GPU를 200Gbps 고속 네트워크로 연결한 고성능 인프라로, LLM 훈련을 위한 기반이 되었습니다. 해당 인프라는 이후 더욱 고도화된 Fire-Flyer 플랫폼으로 진화하며, 딥시크의 기술적 토대를 이루게 됩니다.

이러한 기술적 역량을 바탕으로, 2023년 량원펑은 범용 인공지능(AGI: Artificial General Intelligence) 분야로의 본격적인 진출을 선언하고, 딥시크를 독립적인 AI 연구소로 출범시킵니다. 딥시크는 설립 초기부터 LLM의 훈련 효율을 극대화를 목표로, 데이터셋 구성, 샘플링 전략, 연속 배치 처리 등 훈련 최적화 기술 개발에 집중해 왔습니다. 특히 모델 성능 향상은 물론, 훈련 비용 절감과 인프라 자원 활용의 효율성까지 고려한 균형 잡힌 기술 전략은 업계에서도 주목받고 있습니다.

딥시크에 대한 전 세계의 관심이 지속되는 가운데, 얼마 전인 2025년 3월 24일, 최신 모델 DeepSeek-V3-0324를 공개했습니다. 이번 버전은 기존 DeepSeek-V3에서 성능이 한층 개선된 모델로, 미국 Anthropic의 Claude 3.7과 유사한 수준의 코딩 성능을 갖춘 것으로 평가되고 있습니다. 일각에서는 이번 발표를 두고 중국 AI 산업의 반격 신호탄으로 해석하기도 합니다. 글로벌 AI 기술 경쟁이 치열해지는 가운데, 딥시크는 점차 자체 기술력으로 존재감을 드러내고 있는 모습입니다.

● AI 챗봇은 글을 어떻게 배울까요?

인공지능 챗봇이 문장을 생성하는 방식은 사람의 글쓰기 과정과 유사합니다. 단순히 정답을 외우는 것이 아니라, 방대한 텍스트 데이터를 읽고 단어와 문장의 패턴을 통계적으로 학습하는 방식입니다. 이를 우리는 ‘훈련 또는 학습’이라고 부르며, AI 모델은 주어진 문맥을 바탕으로 다음에 올 단어나 문장을 예측하도록 훈련됩니다. 예를 들어 “고양이가 소파 위에”라는 문장이 주어졌을 때, AI 모델은 그 뒤에 올 표현으로 “앉아 있다” 또는 “누워 있다”와 같은 말을 확률적으로 계산하여 생성합니다. 이러한 과정을 반복하며 AI 모델은 자연스러운 문장을 점점 더 잘 만들어낼 수 있게 됩니다. 참고로, 트랜스포머(transformer)의 디코더(decoder) 구조를 채용하고 있는 GPT 모델 또한 입력된 문장의 특정 단어의 앞선 단어들을 참고하여 미래 단어를 예측/생성하는 방식인 마스킹 어텐션(masked attention)을 이용하고 있습니다.

AI 모델이 보다 정확하고 유창하게 글을 생성하기 위해서는, 어떻게 데이터를 구성하고 훈련시키는지가 매우 중요한 요소로 작용합니다. 이 글에서는 훈련 효율을 높이기 위해 딥시크가 어떠한 기술적 접근을 시도하고 있는지, 관련 발명을 중심으로 함께 살펴보고자 합니다.

딥시크의 핵심 엔진 HAI-LLM

딥시크가 개발한 HAI-LLM은 LLM의 훈련을 고효율로 수행하기 위해 설계된 경량∙고성능 훈련 프레임워크입니다. 수십억에서 수조 개의 파라미터를 가진 모델을 수천 개의 GPU에서 동시에 훈련하기 위해, HAI-LLM은 다양한 병렬화 기법을 유연하게 결합할 수 있도록 구성되어 있습니다. HAI-LLM은 특히 세 가지 “핵심 병렬화 기술”, 즉 ZeRO 기반의 데이터 병렬(Data Parallelism), 파이프라인 병렬화(Pipeline Parallelism) 및 텐서 병렬화(Tensor Parallelism)를 결합한 3D 병렬 구조를 통해 대규모 모델 훈련의 확장성과 효율성을 동시에 실현합니다.

● ZeRO (Zero Redundancy Optimizer) 기반 데이터 병렬: 모델의 파라미터, 그라디언트, 옵티마이저 상태를 GPU 간에 분산 저장함으로써, 단일 장비의 메모리 한계를 극복합니다. 이 방식은 훈련 중 필요한 전체 파라미터를 all-gather로 모은 뒤 연산이 끝나면 다시 분산시키는 구조로, 훈련에 필요한 메모리 사용량을 획기적으로 줄이는 장점이 있습니다. 동일한 모델을 여러 GPU에 복사하고 서로 다른 미니배치(mini batch: 전체 데이터 내에서 일부 데이터의 그룹)를 병렬로 처리하는 방식입니다. 딥시크는 여기에 ZeRO 기법을 적용하여 모델 파라미터와 옵티마이저 상태를 분산 저장함으로써 메모리 사용량을 획기적으로 절감하고 있습니다.

● 파이프라인 병렬화: 모델을 여러 개의 계층 블록으로 나누어 각 블록을 서로 다른 GPU에 배치하고, 순차적으로 데이터를 전달하며 연산을 수행합니다. 이를 통해 대규모 모델 구조의 세분화와 병렬 처리 효율성을 동시에 확보할 수 있습니다. HAI-LLM은 Gpipe 및 PipeDream의 개념을 차용해 이 병렬 처리 중 GPU 유휴 시간을 줄이는 데 성공하였습니다.

<파이프라인 병렬의 작동 방식|출처: High-Flyer 블로그>

● 텐서 병렬화: 하나의 연산을 여러 GPU에 나눠 동시에 수행함으로써 연산 병목을 줄이고 메모리 사용을 최적화하는 방식입니다. 예를 들어 GPU 2대를 사용하는 경우, 행렬 A는 세로 방향으로(A1, A2), 행렬 B는 가로 방향으로(B1, B2) 분할되고, GPU 0은 A1과 B1으로 계산한 결과를, GPU 1은 A2와 B2로 계산한 결과를 수행한 뒤, 두 GPU의 결과를 합쳐 최종 출력을 도출합니다.

<텐서 병렬의 구조적 흐름|출처: High-Flyer 블로그>

HAI-LLM은 이러한 텐서 병렬 처리를 위해, Fire-Flyer GPU 클러스터에 최적화된 haiscale 연산 라이브러리에 ColumnParallelLinear, RowParallelLinear, VocabParallelEmbedding, vocab_parallel_cross_entropy과 같은 병렬 연산 모듈을 제공하여, GPT나 LLaMA 같은 다양한 모델 구조에 손쉽게 적용할 수 있도록 구성되어 있습니다.

HAI-LLM은 위의 3D 병렬 구조 외에도, 트랜스포머(Transformer) 계열 모델에서 발생하는 연산 병목 구간을 보완하기 위해 ‘시퀀스 병렬(Sequence Parallelism)’을 함께 적용하고 있습니다. Transformer는 자연어 처리 모델의 핵심 구조로, 여러 연산 단계가 반복적으로 쌓인 계층적 아키텍처를 가지고 있으며, 그 내부에는 LayerNorm, Dropout과 같이 텐서 병렬만으로는 분할이 어려운 연산이 포함되어 있습니다.

시퀀스 병렬은 이러한 연산을 시퀀스 길이(토큰 단위) 기준으로 나누어 여러 GPU에 분산 처리함으로써, 메모리 사용량을 줄이고 연산 효율을 높이는 데 기여합니다. 즉, 시퀀스 병렬은 3D 병렬의 보조적 병렬화 기법으로 작동하며, 대규모 Transformer 훈련의 메모리 최적화와 연산 성능 향상에 중요한 역할을 수행합니다.

HAI-LLM은 단순한 훈련 도구를 넘어, 대규모 LLM 개발에 필수적인 확장성, 안정성, 그리고 효율성을 고루 갖춘 고성능 AI 훈련 인프라로 평가받고 있습니다. 특히, 이 프레임워크는 딥시크가 출원한 LLM 관련 발명 기술들의 핵심 기반을 이루며, 모델 훈련의 효율성과 기술 경쟁력 확보에 중요한 역할을 하고 있습니다.

아래 이러한 기술적 토대를 바탕으로 도출된 딥시크의 주요 LLM 관련 발명들에 대해 살펴보고자 합니다. 특히, 2024년 3월 28일 중국지식재산권국(CNIPA)에 출원된 CN 118246542 A 특허를 중심으로, 딥시크의 기술적 접근 방식과 LLM 분야에서의 혁신적 기여를 심층적으로 분석해 보겠습니다. 아울러, 데이터 처리 최적화 및 훈련 효율 향상 기술과 관련된 CN 117707416 A, CN 109787638 B 특허도 함께 검토하여, 딥시크가 AI 산업에서 이루고 있는 기술적 진보의 흐름과 방향성을 조망해 보도록 하겠습니다.

3. 딥시크 특허분석

특허분석 ① 인덱스 기반 데이터셋 최적화 기술

LLM 훈련용 데이터셋을 효율적으로 구성하고 처리하는 방법에 관한 발명 (공개번호: CN 118246542 A, 공개일: 2024.06.25, 심사중)

<출처 : keywert, CN 118246542 A 행정정보보기>

<출처 : keywert, CN 118246542 A 상세보기>

키워트로 특허 미리보기 <CN 118246542 A>

발명의 명칭: AI 모델 훈련 데이터셋의 구축 방법

출원번호: CN 202410365843 A (2024.03.28.) (현재 심사중)

공개번호: CN 118246542 A (2024.06.25.)

발명 요약: 해당 발명은 인공지능 모델 훈련을 위한 “데이터셋 구성 방식”에 관한 것으로, 데이터를 동일한 크기의 시퀀스로 나눈 뒤, 인덱스를 활용해 샘플링, 무작위 혼합, 균등 분할을 수행합니다. 훈련 시에는 인덱스를 통해 필요한 데이터 블록을 배치 단위로 읽어오며, 데이터 중복 없이 메모리와 통신 자원을 효율적으로 사용하는 구조를 특징으로 삼고 있습니다.

● 데이터셋 구축, 왜 중요할까요?

LLM을 기반으로 하는 AI 챗봇은 훈련 데이터를 통해 훈련한 것을 바탕으로 문장을 만들어냅니다. 쉽게 말해, AI가 어떤 답을 내놓는지는 무엇을 보고, 어떻게 배웠는지에 달려 있습니다. 이때 AI가 ‘보는 것’, 즉 훈련하는 재료가 바로 ‘데이터셋(dataset)’입니다. 데이터셋 구축은 단순한 수집이 아니라, 데이터를 정제하고 정렬하며, 목적에 맞게 구성하는 전체 과정을 의미합니다. 이는 마치 요리사가 요리를 하기 전, 양질의 재료를 고르고 손질하듯이, AI도 신뢰할 수 있는 결과를 도출하기 위해서는 정확하고 균형 잡힌 데이터가 필수적입니다.

예를 들어, AI에게 ‘고양이’라는 개념을 알려주려면, 단순히 “고양이란 동물이다”와 같은 문장 몇 개로는 부족합니다. 고양이에 대해 사람들이 쓰는 다양한 문맥, 예를 들어 귀엽다, 독립적이다, 털이 날린다, 밥을 가린다 등 다채로운 표현과 문장 구조를 AI가 폭넓게 접할 수 있어야 진짜 ‘이해’가 가능해지는 겁니다. 문제는, 이렇게 수십억 개의 문장 내지 수십~수백 테라바이트(TB)에 달하는 데이터를 효율적으로 저장하고 불러오는 것이 결코 쉽지 않다는 점입니다. 특히 LLM은 수십억 개 이상의 문장을 다루기 때문에, 방대한 데이터를 효과적으로 저장하고, 필요한 순간 빠르게 불러올 수 있도록 구성하는 기술적 작업이 필수적입니다.

결국, LLM의 정확도와 성능을 결정짓는 핵심은 더 이상 데이터의 양이 아니라, 수집한 데이터를 어떻게 정제하고 구성하며 활용하는가에 달려 있습니다.

● 기존 데이터셋 구축 방식과 그 한계

전통적인 LLM 훈련 방식은 뉴스, 백과사전, 커뮤니티 등 다양한 출처에서 수집한 텍스트 데이터를 하나로 결합한 뒤, 샘플 비율 조정이나 태스크(Task)별 최적화를 반복하는 방식이 주를 이루었습니다. 이러한 접근은 일정 수준의 품질 확보에는 효과적이지만, 데이터의 규모가 수십~수백 TB에 이르는 경우가 많아, 데이터를 혼합하고 샘플링하며 분할하는 과정에서 원본 데이터를 반복적으로 호출하고 가공해야 하는 구조적 비효율이 따릅니다. 그 결과, 저장 공간 낭비, 입출력(I/O) 병목, 네트워크 부담, GPU 활용 저하 등 여러 한계가 동시에 발생합니다.

예를 들어, 1TB의 데이터를 10가지 조합으로 실험하면 그만큼 별도 저장 공간이 추가로 필요하고, 원시 데이터(raw data)와 처리 데이터를 중복 보관할 경우 저장량은 최대 2~3배까지 증가할 수 있습니다. 또 훈련 과정에서 매 에포크(epoch, 전체 데이터를 한 번 학습하는 주기)마다 전체 데이터를 다시 읽고 쓰는 구조는 I/O 병목을 유발하고, 100TB 처리에 140시간 이상이 소요되는 경우도 있습니다. 분산 시스템에서는 노드 간 데이터 이동으로 인해 네트워크 전송 시간도 수백 시간에 달할 수 있습니다.

또한, 데이터 샘플링 비중을 5%에서 15%로 변경하는 단순 작업조차 1조 토큰 기준 30분 이상 걸릴 수 있고, 하드디스크(HDD) 기반 시스템에서는 랜덤 접근 시 순차 접근보다 100배 이상 느린 처리 속도를 보이기도 합니다. 문제는 단순한 속도 저하에 그치지 않습니다. 데이터 준비 시간이 길어질수록 GPU는 대기 상태로 머물게 되며, GPU 활용률이 70% 미만으로 떨어지고, 이는 수천 대의 GPU를 사용하는 환경에서 시간당 수천 달러의 자원 낭비로 이어질 수 있습니다.

<기존 LLM 훈련 방식의 한계>

이처럼, 기존 데이터셋 구축 방식은 데이터 복사·재분할에 따른 저장 공간 낭비, 반복적인 데이터 호출로 인한 I/O 병목, 그리고 훈련 리소스의 비효율적 활용과 같은 본질적인 한계를 갖고 있습니다. 이러한 문제들을 해결하기 위한 새로운 접근 방식으로 등장한 것이 바로 딥시크의 CN118246542 A 특허입니다. 해당 특허는 기존 데이터셋 구축 방식의 구조적 비효율을 근본적으로 개선하고, LLM 훈련의 효율성과 유연성을 획기적으로 높이기 위한 방법을 제안하고 있습니다.

● 딥시크 특허의 데이터셋 구축 방법

CN 202410365843 A 특허는 LLM의 훈련 과정에서 발생하는 데이터 처리의 비효율성을 근본적으로 개선하기 위한 기술을 제시합니다. 핵심은, 데이터 자체를 반복적으로 복사하거나 재구성하는 대신, 인덱스(index)만 조작하는 방식으로 데이터셋을 효율적으로 다루는 것입니다. 해당 특허에 따르면, 먼저 전체 데이터셋을 동일한 크기의 ‘데이터 시퀀스’로 나눈 다음, 각 시퀀스를 기준으로 인덱스를 생성합니다. 이후 모델 훈련에 필요한 데이터는 이 인덱스를 기반으로 샘플링, 셔플링 및 분할되어 사용되며, 실제 데이터는 물리적으로 이동하거나 복사되지 않습니다.

예를 들어, 모델 훈련 시에는 인덱스 순서만 바꿔 데이터를 새로운 조합으로 불러오게 되며, 이는 비동기 I/O 방식과 결합되어 데이터 읽기 속도와 처리량을 크게 향상시킵니다. 이렇게 구성된 데이터 블록은 여러 개의 완전한 시퀀스를 포함하고, 훈련 시에는 배치 단위(batch-wise)로 신속하게 판독되어 사용됩니다.

<훈련용 데이터셋 구축의 혁신적 접근법>

결과적으로, 딥시크 특허에 따른 데이터셋 구축 방법은, 저장 공간 낭비를 줄이고, 데이터 중복 처리를 방지하며, 훈련 속도와 연산 자원의 활용도를 극대화할 수 있습니다. 해당 특허는 기존의 반복적인 데이터 가공 과정을 인덱스 기반 처리로 대체함으로써, LLM 훈련 데이터 관리의 새로운 패러다임을 제시한 것으로 평가됩니다.

● 딥시크 특허 청구항 분석

딥시크 특허출원 CN 202410365843 A의 청구항 제1항을 통해 핵심적 기술구성을 살펴보겠습니다.

청구항 제1항:

인공지능 모델 훈련 데이터셋의 구축 방법에 있어서,

1) 데이터셋을 동일한 크기의 여러 데이터 시퀀스로 분할하는 단계;

2) 데이터 시퀀스 단위로 인덱스를 생성하는 단계;

3) 필요한 비율에 따라 데이터셋에서 샘플 데이터를 추출하는 단계;

4) 샘플 데이터를 데이터 시퀀스 단위로 혼합하고 랜덤으로 섞는 단계;

5) 섞인 샘플 데이터를 균등하게 분할하여 여러 데이터 블록을 생성하는 단계 - 각 데이터 블록은 여러 개의 완전한 데이터 시퀀스를 포함함 -;

6) 모델 훈련의 각 단계에서 데이터 입력 시, 인덱스를 통해 대응하는 데이터 블록을 배치 단위로 판독하여 모델 훈련 데이터로 사용하는 단계;를 포함하는 것을 특징으로 하는,

인공지능 모델 훈련 데이터셋의 구축 방법.

청구항 제1항은 총 6개의 단계들로 이루어져 있으며, 아래에서는 이러한 6개의 단계들 각각에 대한 세부 내용을 설명드리겠습니다.

1) 데이터셋을 데이터 시퀀스 단위로 분할

1-1) 데이터를 ‘시퀀스 단위’로 나누는 이유

AI 모델 훈련의 첫걸음은 방대한 텍스트 데이터를 잘게 나누고 정리하는 일입니다. 긴 문서를 그대로 학습하는 것은 비효율적이기 때문에, 모델이 한 번에 이해할 수 있는 적절한 길이로 나누는 것이 중요합니다. 예를 들어, 소설 한 편을 문단이나 몇 문장씩 잘라서 입력하면, 모델은 그 단위에 집중해 효과적으로 학습할 수 있습니다. 이때 사용되는 단위가 바로 ‘데이터 시퀀스’입니다. 해당 특허출원은 이러한 데이터를 시퀀스 단위로 구조화하는 방식을 제안합니다.

1-2) 데이터 정제와 토큰화

먼저 다양한 경로(오픈소스, 웹 크롤링 등)로 raw data를 수집한 뒤, 중복 문장 제거, 규칙 필터링 등을 통해 불필요한 정보를 걸러냅니다. 정제된 텍스트는 바로 쓰이지 않고 ‘토큰화(Tokenizing)’라는 과정을 거칩니다. 이는 문장을 모델이 이해할 수 있는 ‘토큰’이라는 최소 단위로 분해하는 작업입니다. 예를 들어, “고양이가 소파에 누워 있다”를 [‘고양이’, ‘가’, ‘소파’, ‘에’, ‘누워’, ‘있다’]로 분해하는 것입니다. 이후 각 토큰은 숫자로 변환되어 훈련에 적합한 형태로 저장됩니다.

1-3) 시퀀스 구성 및 저장 방식

이렇게 숫자로 변환된 토큰들은 일정 길이로 나뉘어 ‘데이터 시퀀스’로 구성됩니다. 예를 들어, 하나의 시퀀스는 1024개의 연속된 토큰으로 구성되고, 필요에 따라 2048개, 4096개 단위로 조정할 수도 있습니다. 이러한 시퀀스는 단순한 데이터 분할이 아니라, 이후 인덱싱, 샘플링, 셔플링, 모델 입력까지 모든 데이터 처리의 기본 단위로 작동합니다. 시퀀스 내부 토큰 순서는 유지되므로 문맥도 자연스럽게 보존됩니다.

마지막으로 시퀀스는 여러 개의 파일로 나뉘어 분산 저장되고, 이를 통해 대규모 GPU 클러스터 환경에서 병렬 처리가 가능해집니다. 결과적으로, 훈련 속도는 향상되고, 자원 활용 효율도 높아지게 됩니다.

2) 데이터 시퀀스 인덱싱

2-1) 인덱스, 데이터를 빠르게 찾는 열쇠

각 데이터 시퀀스에 대한 인덱스를 생성하는 과정은 대규모 데이터셋을 체계적으로 관리하고, 필요한 데이터를 신속하게 검색 및 추출할 수 있도록 지원하는 핵심 기술입다. 인덱스는 각 시퀀스의 첫 번째 토큰이 데이터셋 파일 내 어디에 저장되어 있는지를 알려주는 위치 정보 목록입니다. 다시 말해, “n번째 시퀀스는 데이터 파일의 몇 번째 바이트부터 시작한다”는 정보를 모아둔 것입니다.

각 인덱스 항목은 8바이트(int64)로 저장되며, 실제로는 토큰 배열의 오프셋(offset) 값을 저장합니다. 예를 들어, 인덱스 값이 15,000,000,000이라면, 이는 해당 시퀀스가 데이터셋의 150억 번째 토큰부터 시작함을 의미합니다.

2-2) 인덱스 활용 장점

인덱스 구조를 통해, 데이터를 직접 수정하지 않고도 다음과 같은 유연한 데이터 조작이 가능해집니다.

- 전체 데이터셋을 다시 복사하지 않고도 지정한 범위만 읽기

- 서로 다른 데이터셋을 지정한 비율로 혼합하거나 샘플링

- 시퀀스 단위로 무작위 셔플링(shuffling)

- GPU 훈련을 위한 배치 단위 데이터 읽기

무엇보다도, 데이터 시퀀스와 인덱스가 일대일로 대응되기 때문에, 훈련 중에도 인덱스만 재배열하면 새로운 실험 조건에 맞게 데이터를 재조합할 수 있습니다. 이는 데이터의 재사용성과 실험 효율성을 크게 향상시키고, 전체 훈련 프로세스의 성능을 개선하는 데 중요한 역할을 합니다.

3) 데이터 샘플링

AI 모델을 훈련할 때 특정 목적에 따라 서로 다른 성격의 데이터들을 적절한 비율로 조합해 혼합 데이터셋을 구성합니다. 예를 들어 뉴스, 백과사전, 커뮤니티 등 서로 출처가 다른 데이터셋이 있다고 가정하면, 각 데이터셋이 전체 훈련에서 차지하는 비중을 조절하여 더 균형 잡힌 모델 성능을 끌어내는 것이 핵심 전략입니다.

해당 특허는 데이터 샘플링 단계를 통해 이러한 과정을 훨씬 유연하고 효율적으로 수행할 수 있습니다. 구체적으로는, 전체 데이터셋 중 일부를 샘플링할 때 실제 데이터를 물리적으로 복사하거나 재배열하지 않고, 데이터 시퀀스 단위의 인덱스를 활용하여 필요한 만큼만 논리적으로 선택하는 방식입니다. 이에 따라 저장 공간 낭비 없이도 다양한 조합 실험이 가능해집니다.

예를 들어, 두 개의 데이터셋 A와 B가 있다고 가정해 보겠습니다. A에는 100억(10B)개의 토큰이, B에는 200억(20B)개의 토큰이 있어 전체 300억(30B) 토큰이 존재합니다. 이때 총 50억(5B) 토큰을 이용해 훈련하고자 할 경우, A와 B에서 각각 20%, 80%의 비율로 데이터를 활용하려면, A에서 1B, B에서 4B 토큰을 선택하게 됩니다.

이 모든 선택은 데이터 시퀀스 단위로 수행되며, 실제로 저장된 파일을 건드릴 필요 없이 인덱스 조작만으로 처리되므로 매우 빠르고 안정적으로 실행됩니다. 또한, 샘플링 비율을 바꾸는 것도 간단히 인덱스만 조정하면 되므로, 실험 반복 시 높은 유연성과 속도를 보장합니다.

4) 데이터 혼합 및 랜덤화

앞 단계에서 여러 데이터셋으로부터 샘플 데이터를 추출했다면, 이제 이 데이터를 하나의 훈련용 데이터셋으로 만들기 위한 혼합(Mix) 및 셔플링(Shuffle) 작업이 필요합니다. 이 과정은 단순히 데이터를 한데 모으는 것에 그치지 않고, 모델이 편향 없이 다양한 문맥을 학습할 수 있도록 만드는 데 중요한 역할을 합니다.

이때 중요한 점은, 데이터를 ‘데이터 시퀀스’ 단위로 셔플링하는 것입니다. 하나의 데이터 시퀀스는 예를 들어 1024개의 연속된 토큰으로 구성되어 있고, 이 내부 구조는 그대로 유지됩니다. 즉, 시퀀스 내부의 문맥은 변하지 않으면서, 시퀀스들 간의 순서만 무작위로 섞이는 방식입니다.

이러한 셔플링 과정은 실제로 저장된 데이터를 직접 바꾸는 것이 아니라, 인덱스를 조작하는 방식으로 이루어집니다. 각 시퀀스의 시작 위치가 기록된 인덱스 배열의 순서만 바꾸기 때문에, 물리적인 데이터 이동이나 복사가 발생하지 않고, 자원을 절약하면서도 다양한 데이터 구성을 시도할 수 있게 됩니다.

결과적으로, 균형 잡힌 데이터 샘플링과 랜덤화는 모델이 특정 데이터 패턴에 과도하게 적응(overfitting)하는 것을 방지하고, 다양한 상황에서 일관된 성능을 발휘할 수 있도록 지원할 수 있습니다.

5) 데이터 블록 생성 및 균등 분할

5-1) 데이터 블록으로 나누는 이유

셔플링된 데이터 시퀀스는 그대로 모델에 입력되는 것이 아니라, ‘데이터 블록(Data Block)’ 이라는 단위로 나누어 모델에 순차적으로 공급됩니다. 쉽게 말해, 모델이 한 번에 받아들일 수 있는 적절한 양의 데이터를 일정한 단위로 포장하는 과정이라 할 수 있습니다.

이때 중요한 점은, 각 블록이 반드시 완전한 시퀀스들로만 구성되어야 한다는 것입니다. 시퀀스를 중간에서 자르지 않고, 하나의 묶음 단위로 블록에 포함시켜야 합니다. 이는 모델이 문맥을 잃지 않고 안정적으로 학습할 수 있도록 하기 위함입니다.

5-2) 데이터 블록 크기 설정과 처리 방식

각 데이터 블록에 포함되는 시퀀스의 수(Y)는 모델의 구조와 하드웨어 성능에 따라 결정됩니다. 예를 들어, 하나의 시퀀스가 1024개 토큰(약 4KB)으로 구성되어 있고, 하나의 블록에 4096개의 시퀀스를 포함한다면, 하나의 데이터 블록 크기는 약 16MB가 됩니다.

이렇게 분할된 블록은 모델 훈련 과정에서 순차적으로 입력되며, 각 훈련 단계마다 하나의 블록씩 불러와 처리됩니다. 이 방식은 대용량 데이터를 빠르고 안정적으로 처리할 수 있게 해주며, 특히 인덱스를 활용한 접근을 통해 저장된 데이터를 직접 수정하거나 재배치하지 않고도 효율적인 배치 처리를 가능하게 합니다.

이 단계는 대규모 데이터셋을 체계적으로 구성하여 모델 훈련을 위한 최적의 단위로 분할하는 중요한 과정으로, 훈련 과정에서 데이터의 균형적 활용이 가능해지고, 연산 자원의 낭비를 최소화하면서도 훈련 성능을 극대화할 수 있습니다.

6) 인덱스를 활용한 데이터 로딩 및 최적화

6-1) 인덱스를 활용한 데이터 블록 읽기 방식

모델을 훈련할 때는, 매 단계마다 하나의 데이터 블록을 읽어와 입력값으로 사용합니다. 이때 중요한 점은, 실제 데이터를 직접 순차 탐색하는 것이 아니라, 인덱스를 활용해 필요한 데이터만 정확히 찾아서 불러오는 구조라는 점입니다.

각 데이터 시퀀스는 저장 위치(첫 번째 토큰의 오프셋 정보)가 인덱스에 기록되어 있어, 모델은 인덱스를 참조해 각 시퀀스가 저장된 위치를 빠르게 파악할 수 있습니다. 예를 들어, 4096개의 시퀀스로 구성된 데이터 블록을 읽어오려면, 해당 시퀀스들의 인덱스 정보만 메모리로 불러와 저장 장치에 읽기 요청을 보내면 됩니다. 이 구조는 불필요한 데이터 접근을 최소화하고, 읽기 작업의 속도를 획기적으로 향상시킵니다.

특히 이 구조는 모델 훈련의 기본 단위인 '배치(batch)' 단위로 데이터를 읽어올 수 있도록 설계되어 있다는 점에서 중요합니다. 각 훈련 스텝에서 필요한 시퀀스 묶음만 정확히 선택적으로 불러올 수 있기 때문에, 메모리 사용을 최소화하면서도 안정적으로 훈련을 수행할 수 있습니다. 기존처럼 전체 데이터를 매번 로딩하지 않아도 되기 때문에, 실험 반복이나 다중 구성 조건에서도 유연한 훈련 스케줄링이 가능합니다.

6-2) 고속 처리: 비동기 I/O를 이용한 병렬 읽기

실제 구현에서는 비동기 I/O(asynchronous I/O) 기법을 활용하여 다수의 데이터 시퀀스를 동시에 불러옵니다. 이는 특히 데이터가 여러 저장 장치에 분산되어 있을 때 매우 유용합니다. 각 저장 서버는 독립적으로 요청을 받아 병렬로 데이터를 읽어오게 되며, 이 과정을 통해 전체 데이터 블록이 효율적으로 수집됩니다.

중요한 점은, 일반적인 Buffered I/O처럼 데이터를 메모리의 PageCache에 저장하지 않고, PageCache를 끄고 직접 SSD에서 필요한 데이터만 불러오기 때문에 메모리 낭비를 줄이고, 시스템 자원 사용을 최소화할 수 있다는 점입니다.

이렇게 수집된 시퀀스들은 인덱스 순서대로 정렬되어 하나의 완성된 데이터 블록으로 조립되며, 이는 곧바로 모델 훈련에 투입됩니다. 즉, 각 배치마다 필요한 데이터만 정확히 불러오는 구조 덕분에, GPU 자원을 낭비하지 않고 최적의 시점에 최적의 데이터를 제공할 수 있습니다.

요약하면, 이 방식은 대규모 LLM 훈련 시 데이터를 빠르게, 정확하게, 자원 낭비 없이 읽어올 수 있도록 설계된 고효율 처리 구조로, 기존 방식 대비 학습 처리 속도와 확장성 측면에서 큰 이점을 제공합니다.

● 인덱스 기반 데이터셋 구축 및 훈련 기술의 핵심 장점

1) 데이터 처리 구조의 전환점

해당 특허 발명이 가지는 가장 큰 의의는, 단순한 성능 개선을 넘어 초대형 AI 모델 훈련의 데이터 처리 구조를 근본적으로 전환했다는 점입니다.

기존의 훈련 방식에서는 다양한 데이터셋을 혼합하고 비율을 조정하거나 셔플링할 때마다, 실제 데이터를 물리적으로 복사하거나 재정렬하는 작업이 필요했습니다. 이러한 반복적인 작업은 저장 공간을 과도하게 차지할 뿐 아니라, 실험을 반복하거나 구성 변경을 시도할 때 많은 시간과 자원이 소모되는 병목 요인이 되었습니다.

이에 반해 해당 특허는 데이터를 시퀀스 단위로 나눈 뒤, 각 시퀀스의 시작 위치를 기록한 인덱스 기반 제어 방식을 도입합니다. 실제 데이터는 그대로 두고, 인덱스 배열만을 조작해 샘플링, 혼합, 셔플링 등 다양한 데이터 구성이 가능해지므로, 데이터 처리의 유연성과 효율성이 비약적으로 향상됩니다.

2) 저장 공간과 통신 비용의 최적화

해당 특허의 또 다른 핵심 효과는 저장 공간과 통신 자원의 효율성 극대화할 수 있다는 점입니다. 기존 방식에서는 데이터 샘플링이나 재구성 시 원본 데이터를 복사하거나 새롭게 저장해야 했기 때문에, 실험 횟수가 늘어날수록 저장 공간이 기하급수적으로 증가하는 문제가 있었습니다.

반면, 해당 특허는 중복 데이터를 생성하지 않고, 필요한 데이터만을 정확하게 선택하여 사용하는 구조를 채택하고 있습니다. 모든 데이터 조작이 인덱스를 통해 논리적으로 이루어지므로, 불필요한 중복 저장 없이도 다양한 실험 조합이 가능해집니다. 결과적으로, 저장 공간 활용도가 크게 향상되며, 장기적인 데이터 유지 관리에도 유리한 구조를 제공합니다.

또한, 훈련 중에도 전체 데이터를 로드하지 않고 배치 단위로 필요한 데이터만 빠르게 판독하므로, 네트워크를 통한 데이터 이동 역시 최소화됩니다. 이는 특히 대규모 분산 시스템이나 클라우드 기반 GPU 클러스터 환경에서 통신 비용 절감과 네트워크 병목 최소화라는 측면에서 큰 장점을 갖습니다.

3) 연산 자원 활용률과 확장성 향상

모델이 필요한 데이터만을 정확히 인덱스를 통해 불러오기 때문에, 훈련 속도가 빨라지고 GPU 활용률도 향상됩니다. Buffered I/O 대신 비동기 I/O를 적용하여, 각 저장 장치에서 병렬로 데이터를 불러올 수 있도록 한 점도 효율성을 높이는 요인 중 하나입니다.

또한, 시퀀스 단위로 데이터를 구성하기 때문에, 데이터 분할 및 분산 저장이 용이하며, 여러 노드에서 동시에 데이터를 불러오는 병렬 구조가 자연스럽게 지원됩니다. 이는 대규모 실험 환경에서 확장성과 안정성을 동시에 확보할 수 있게 합니다.

4) 소결

결론적으로, 딥시크의 해당 특허는 기존의 반복적이고 비효율적인 데이터 처리 구조에서 벗어나, 인덱스를 중심으로 한 정교하고 유연한 데이터 흐름 설계를 제시하고 있습니다. 이러한 방식은 저장 공간 절약, 통신 비용 감소, 훈련 속도 향상, 자원 활용 최적화라는 네 가지 핵심 목표를 동시에 달성할 수 있도록 해주며, 다양한 실험 조건에서도 빠르게 조정할 수 있는 높은 유연성을 제공한다는 기술적 효과를 가질 수 있습니다.

향후 LLM을 비롯한 대규모 AI 모델의 훈련에서, 성능뿐만 아니라 효율성과 재현 가능성까지 함께 고려해야 하는 흐름 속에서, 딥시크의 해당 특허는 그 실용성과 적용 가능성 측면에서 의미 있는 기술적 기반이 될 수 있을 것으로 보여집니다.

특허분석 ② 비동기 I/O 기반 고속 데이터 접근 기술

분산 저장 기반 비동기 I/O 고속 엑세스 방법 및 그 장치 (공개번호: CN 117707416 A, 공개일: 2024.03.15, 심사중)

<출처 : keywert, CN 20221107644 A 행정정보보기>

<출처 : keywert, CN 20221107644 A 상세보기>

키워트로 특허 미리보기 <CN 117707416 A>

발명의 명칭: 분산 저장 기반 비동기 I/O 고속 엑세스 방법 및 그 장치

출원번호: CN 202211087644 A (2022.09.07.) (현재 심사중)

공개번호: CN 117707416 A (2024.03.15.)

발명 요약: 본 발명은 분산 저장 환경에서 대용량 데이터를 빠르게 불러오는 기술에 관한 것입니다. 데이터를 여러 저장소에 나눠 저장하고, 필요할 때는 비동기 I/O 방식으로 동시에 여러 조각을 병렬로 판독하여, 원본 파일을 빠르게 복원할 수 있게 설계되어 있습니다. 이를 통해, I/O 속도는 빨라지고, 메모리 사용과 네트워크 부담은 줄어들며, 대규모 AI 모델 훈련처럼 많은 데이터를 다뤄야 하는 작업에서 처리 효율을 크게 향상시킬 수 있습니다. AI 훈련 속도와 자원 활용이 중요한 요즘 주목할 만한 기술입니다.

● 기존 분산 저장 방식의 한계

대규모 AI 모델을 학습시키거나 방대한 데이터를 처리할 때는, 수십에서 수천 대의 서버가 연결된 클러스터 환경에서 데이터를 분산 처리하는 방식이 일반적으로 사용됩니다. 이를 위해 하나의 대용량 데이터를 일정 크기로 잘게 나누고, 여러 저장 서버에 분산시켜 저장하는 분산 저장 시스템이 도입됩니다. 하지만 이 방식에는 다음과 같은 기술적 한계가 존재합니다.

1) 읽기 성능 저하

여러 서버에 데이터가 저장되어 있어도, 각 서버에 대해 한 번에 하나의 읽기 요청만 처리하고 단일 스레드로만 수행되기 때문에, 전체 처리 속도가 느려지고 클러스터의 네트워크 자원이 비효율적으로 사용됩니다.

2) 불균형한 데이터 블록 관리

저장된 데이터의 크기에 따라 블록 크기가 제각각이기 때문에, 서버는 그때그때 다른 크기의 메모리를 할당해야 합니다. 이로 인해 메모리 관리의 복잡도가 증가하고 전체 시스템 성능이 저하됩니다.

3) 낮은 전송 효율성

데이터 조각이 너무 크면 한 번의 전송 시간이 오래 걸리고, 너무 작으면 빈번한 통신으로 인해 네트워크 오버헤드가 커지는 문제가 발생합니다. 이로 인해 읽기 효율이 떨어지고 I/O 병목 현상이 발생하기 쉽습니다.

● 딥시크 특허의 목적과 해결 수단

초거대 AI 모델 학습에서는 수십억 개의 파라미터와 수천억 개의 토큰이 사용되며, 데이터 접근 속도는 모델 훈련의 성능에 결정적인 영향을 줍니다. 기존의 단일 스레드 기반 분산 저장 방식으로는 이러한 요구를 충족하기 어렵습니다. 이에 따라, 딥시크의 해당 특허는 다음과 같은 구조적 개선을 통해 문제를 해결하고자 합니다.

1) 데이터를 고정 크기의 블록으로 균일하게 분할

일정한 크기로 데이터를 잘라, 서버가 데이터를 효율적으로 관리하고 응답할 수 있도록 설계합니다.

2) 배치(batch) 방식의 읽기 요청

하나의 서버에서 여러 조각을 한 번에 읽도록 하여, I/O 처리량을 대폭 향상시킵니다.

3) 저장 위치를 사전에 마킹(tagging)

각 데이터 조각의 위치 정보를 별도로 저장하고 관리하여, 요청 시 빠르게 접근할 수 있도록 합니다.

4) 비동기 I/O + 다중 스레드 기반 구조 도입

여러 요청을 병렬로 처리함으로써 데이터 판독 지연을 최소화하고, 시스템 자원 활용률을 극대화합니다.

● 딥시크 특허의 비동기 I/O 고속 데이터 접근 방법

본 발명이 제안하는 기술은, 분산 저장 환경에서의 데이터 읽기 병목을 근본적으로 해결할 수 있는 비동기 I/O 기반의 고속 접근 방식을 중심으로 합니다. 이 방법은 데이터 파일을 균일한 크기로 나눈 후, 각 데이터 조각의 저장 위치 정보를 메타데이터로 관리하고, 이를 기반으로 다중 스레드를 통한 병렬 판독을 수행합니다.

중요한 점은, 이 구조가 LLM과 같은 초대형 AI 모델 훈련에 최적화되어 있다는 것입니다. LLM 학습에서는 수십 내지 수백 테라바이트(TB)에 달하는 데이터를 빠르게 불러와야 하며, 이 과정에서 발생하는 I/O 병목이 전체 학습 시간과 비용을 좌우하게 됩니다.

CN 117707416 A 특허는 이러한 상황을 고려하여, 고속 데이터 액세스를 위한 구조적 해법을 제시합니다. 특히, 데이터 전송은 RDMA(Read Direct Memory Access) 방식을 활용하여 CPU·메모리 부담 없이 데이터를 사용자 메모리 공간으로 직접 불러오고, GPU가 데이터를 기다리지 않고 연산에 즉시 활용할 수 있도록 지원합니다.

● 딥시크 특허 출원의 청구항 분석

아래 본 발명의 특허 청구항 제1항을 통해 핵심적 기술구성을 살펴보겠습니다.

청구항 제1항:

분산 저장 기반의 비동기 I/O 고속 접근 방법에 있어서, 저장 단계와 판독 단계를 포함하며,

저장 단계는,

(1) 데이터 파일을 균등하게 분할하는 단계;

(2) 데이터 조각을 순차적으로 저장하는 단계; 및

(3) 데이터 조각의 저장 식별 정보를 유지하는 단계를 포함하는 것을 특징으로 하는, 비동기 I/O 고속 접근 방법.

1) 데이터 파일의 균등 분할

대규모 AI 모델 훈련에 사용되는 데이터는 하나의 거대한 파일로 존재하는 것이 아니라, 수많은 조각으로 나뉘어 저장됩니다. 본 발명에서는 이러한 데이터 파일을 일정 크기의 물리적 조각, 즉 데이터 블록으로 균등하게 나누는 “균등 분할” 방식이 적용됩니다.

특히, 클러스터 환경에서 n개의 저장 서버가 존재한다면, 전체 파일을 최소 N ≥ n 개로 분할하여 각 서버가 균형 있게 데이터를 나눠 갖도록 설계됩니다. 각 조각은 일반적으로 512KB에서 2MB 사이의 크기로 설정되며, 이는 데이터 전송 효율성과 저장 공간 활용을 동시에 고려한 최적의 설계입니다. 이처럼 균등한 분할은 후속 단계에서의 병렬 읽기 성능을 좌우하는 핵심적인 기반이 됩니다.

2) 데이터 조각의 순차적인 저장

데이터가 나뉘었다면, 이제 저장할 차례입니다. 하지만 무작정 저장하는 것이 아니라, 저장소 간 부하를 고르게 분산하기 위한 전략이 동원됩니다. 우선 n개의 저장 서버를 무작위로 섞어 저장 순서를 정하고, 분할된 데이터 조각을 해당 순서에 따라 하나씩 순차 저장합니다.

예를 들어, a번째 조각은 a % n번째 서버에 저장되며, 다음 데이터 파일을 저장하기 전에 다시 한번 서버 순서를 무작위로 셔플합니다. 이렇게 하면 동일한 서버에 특정 유형의 데이터가 과도하게 몰리는 현상을 방지할 수 있으며, 전체 저장 시스템의 I/O 병목을 줄이고 병렬 처리 효율을 크게 높일 수 있습니다.

3) 데이터 조각의 저장 식별 정보 유지

각 데이터 조각이 어디에, 어떤 이름으로 저장되었는지를 정확히 추적하기 위한 메커니즘이 바로 “저장 식별 정보(메타데이터)”입니다. 본 발명에서는 각 조각의 파일 이름, 전체 크기, 조각 이름, 분할 크기, 저장 위치 및 서버 정보를 별도로 기록하여 중앙 메타데이터 저장소에 보관합니다.

이 정보는 훈련 단계에서 필요한 데이터만 빠르게 호출할 수 있게 해주는 주소록 역할을 하며, 실시간 처리에 필수적인 정확성과 속도를 보장합니다. 물리적 데이터는 그대로 두고 논리적으로 조작할 수 있게 해주는 핵심 기반이기도 합니다.

● 딥시크 특허의 핵심 장점

CN 117707416 A 특허는 대규모 분산 저장 환경에서 데이터 파일을 일정 크기로 정밀하게 분할하고, 각 조각의 저장 위치를 메타데이터로 관리함으로써, 모델 훈련 시 필요한 데이터만을 빠르게 식별·선택·병렬 판독할 수 있도록 합니다. 비동기 I/O와 고속 인터페이스(NVMe, RDMA 등)를 기반으로 한 다중 스레드 병렬 읽기 구조는 데이터 로딩 병목을 최소화하고, GPU 자원의 대기 시간 없이 실시간에 가까운 데이터 공급을 가능하게 하며, 전체 시스템의 I/O 처리량과 네트워크 효율성을 비약적으로 향상시킵니다.

이를 통해 본 발명은 AI 모델 훈련에서 가장 큰 병목 중 하나인 대용량 데이터 접근 문제를 효과적으로 해결하며, 고성능, 고확장성 분산 훈련 환경을 위한 기술적 기반을 제공합니다.

특허분석 ③ 데이터 압축 저장 최적화 기술

데이터 압축 저장 처리 장치 및 방법 (등록번호: CN 109787638 B, 등록일: 2023.03.31.)

<출처 : keywert, CN 201910021307 A 행정정보보기>

<출처 : keywert, CN 201910021307 A 상세보기>

키워트로 특허 미리보기 <CN 109787638 B>

발명의 명칭: 데이터 압축 저장 처리 장치 및 방법

출원번호: CN 201910021307 A (2019.01.10.)

등록번호: CN 109787638 B (2023.03.31.)

발명 요약: 본 발명은 다양한 데이터 유형을 혼합 전송할 때, 이를 자동으로 식별하고 각 유형에 맞춰 “압축” 및 저장하는 기술입니다. 먼저 데이터를 압축 기준에 맞게 전처리하고, 데이터 유형에 따라 다른 방식으로 압축을 수행합니다. 이후 압축된 데이터에 대해 저장 공간을 자동으로 조절하여 효율적으로 저장합니다. 특히 데이터의 연속성이 높을수록 압축 효율이 크게 향상되며, 무손실 압축이 가능하다는 점이 특징입니다. 참고로, 해당 특허는 심사 과정에서 “진보성” 거절이유 없이 명세서 내의 형식 관련 거절이유만 발행되었으며, 현재 최종 특허 등록이 된 상태입니다.

● 기존 데이터 압축 기술의 한계

오늘날 많은 시스템에서 다양한 형태의 데이터가 실시간으로 생성되고 있습니다. 이 데이터들은 구조가 복잡하고 양이 많기 때문에, 저장 및 전송 과정에서 효율적인 압축이 필수적입니다. 하지만 기존의 압축 기술은 대부분 단일 데이터 유형만을 고려하거나 정적인 방식으로 설계되어 있어, 서로 다른 구조의 데이터를 동시에 다루는 데에 어려움이 많았습니다.

또한, 데이터를 압축하더라도 그 크기와 무관하게 고정된 저장 공간을 할당하는 방식은 저장 효율을 떨어뜨리고, 전체 시스템의 자원 소모를 증가시키는 원인이 되곤 했습니다. 압축 효율, 전송 속도, 저장 공간의 유연성이라는 세 가지 요소를 동시에 만족시키기 어려웠던 것이 기존 기술의 근본적인 한계였습니다.

● 딥시크 특허의 필요성

이러한 문제를 해결하려면, 시스템은 다양한 데이터 유형을 자동으로 식별하고, 각각에 적합한 압축 방식을 적용할 수 있어야 합니다. 또한, 데이터의 크기와 특성이 유동적인 만큼, 저장 공간 역시 고정이 아니라 유연하게 조정될 필요가 있습니다.

CN 109787638 B 특허는 바로 이러한 니즈를 충족시키기 위해 고안되었습니다. 입력 데이터를 실시간으로 분류하고, 각각의 속성에 맞는 방식으로 차이값 기반의 압축을 수행하며, 부호와 값 정보를 분리 저장함으로써, 연산 효율성과 압축률을 모두 확보합니다. 뿐만 아니라 저장 공간 역시 정해진 크기를 넘는 경우 자동으로 조절되며, 데이터를 최대한 손실 없이 보존할 수 있도록 설계되었습니다.

● 딥시크 특허의 정밀한 압축 및 적응형 저장 전략

해당 특허의 핵심은 크게 세 가지로 요약할 수 있습니다.

1) 데이터 인식 기반의 압축 처리

입력된 데이터를 자동으로 식별하고, 각 데이터 유형의 구조에 따라 다른 기준값을 설정하여 차이값 기반의 압축을 수행합니다. 이는 서로 다른 데이터 구조를 동시에 효율적으로 처리할 수 있도록 해 줍니다.

2) 부호 비트 분리 및 계산 간소화

부호와 값 데이터를 분리 저장함으로써 연산을 단순화하고, 하드웨어 상의 최적화도 가능하게 합니다. 이 방식은 데이터의 구조적 일관성을 유지하면서도 저장 효율을 높이는 데 기여합니다.

3) 동적 저장 공간 조정

미리 설정된 저장 공간이 부족할 경우, 데이터의 실제 크기에 따라 공간을 자동으로 확장하거나 재할당하는 기능을 포함하고 있어, 다양한 데이터 크기에 유연하게 대응할 수 있습니다.

이러한 기술 조합을 통해 본 발명은 구조가 상이하고 지속적으로 변화하며 빠른 대응이 필요한 데이터 환경에서, 압축 효율성과 저장 최적화를 동시에 실현할 수 있는 강력한 솔루션을 제공합니다.

● 딥시크 등록 특허의 청구항 분석

아래 본 발명의 특허 청구항 제1항을 통해 핵심적 기술구성을 살펴보겠습니다.

<출처 : keywert, CN 109787638 B 상세보기>

청구항 1:

데이터 압축 저장 처리 장치에 있어서,

데이터 획득 모듈, 사전 처리 모듈, 분류 모듈, 압축 처리 모듈, 조정 모듈, 데이터 쓰기(write) 모듈을 포함하고,

상기 데이터 획득 모듈은, 데이터 소스에서 처리해야 할 원시 데이터를 수집하는 데 사용되며, 상기 원시 데이터는 증권 시장 거래 과정에서 생성되는 각종 데이터의 혼합 데이터 흐름이고,

상기 사전 처리 모듈은, 데이터 획득 모듈에서 얻은 데이터를 사전 처리하여 데이터가 압축 표준에 부합하도록 하며, 절대 값 및 부동 소수점 반올림을 포함하여 부호 비트를 별도로 저장하고,

상기 분류 모듈은, 미리 처리된 혼합 데이터 흐름을 식별하고 분류하고, 서로 다른 데이터 유형을 나누어, 이를 유형 표시 비트로 표시하는 데 사용되며,

상기 압축 처리 모듈은, 표시 비트에 의해 표시된 데이터 유형에 근거하여, 서로 다른 사전 설정 방식에 따라 데이터를 압축 처리하여, 데이터 관련성을 높이고 데이터 양을 줄이고,

상기 조정 모듈은, 각 필드에 필요한 저장 크기를 예측할 수 있으며, 예측된 저장 길이에 따라 압축된 데이터에 상이한 기본 저장 길이를 할당하고, 압축된 데이터의 실제 상황에 따라 예정된 할당 공간을 초과한 데이터를 동적으로 조정하여 저장 공간과 데이터 길이를 매칭시키며,

상기 데이터 쓰기 모듈은, 처리된 데이터를 할당된 저장 공간 길이에 따른 저장 형식에 따라 쓰기 작업을 수행하여, 최종 처리된 데이터를 획득하는 데 사용되는 것을 특징으로 하는, 데이터 압축 저장 처리 장치.

키워트로 특허 미리보기 <CN 109787638 B>

청구항 제1항은 해당 특허의 핵심 기술을 여섯 개의 모듈로 구성하여, 다양한 형식의 대용량 데이터를 효과적으로 압축하고 저장할 수 있도록 설계된 장치를 제시하고 있습니다.

가장 먼저, 데이터 획득 모듈은 여러 시스템에서 동시에 발생하는 다양한 형식의 데이터를 수집합니다. 이 데이터는 하나의 포맷이 아닌 복합적인 형태로 구성된 ‘혼합 데이터 흐름’이며, 장치가 다양한 입력에 유연하게 대응할 수 있는 기반이 됩니다. 전처리 모듈은 수집된 데이터를 압축에 적합한 형태로 정리합니다. 예를 들어, 부호 비트를 분리하거나 부동소수점을 정수로 변환해 데이터 구조를 간소화함으로써 이후 연산의 효율을 높입니다. 분류 모듈은 이렇게 정리된 데이터를 유형별로 자동 분류하고, 각 데이터에 고유 태그를 부여합니다. 이는 이후 단계에서 각 데이터 유형에 맞는 압축 방식을 선택할 수 있도록 도와주는 핵심 절차입니다.

해당 특허의 핵심이라고 할 수 있는 압축 처리 모듈은 사전에 정의된 방식에 따라 데이터를 압축합니다. “기준값 설정 → 차이값 계산 → 부호 분리”라는 과정을 거쳐, 데이터의 표현 범위를 줄이고 비트 수를 최소화하는 방식으로 구성되어 있습니다. 특히 연속된 숫자 데이터를 효과적으로 줄일 수 있는 차분 압축 기법이 적용되어 있습니다. 다음으로, 조정 모듈은 데이터 크기에 따라 저장 공간을 자동으로 조정합니다. 기본적으로 ‘작음’, ‘중간’, ‘큼’ 이 세 가지 크기를 기준으로 삼으며, 데이터가 그 기준을 넘거나 부족할 경우 동적으로 크기를 조절해 메모리를 낭비하지 않도록 합니다. 마지막으로, 데이터 쓰기 모듈은 앞서 처리된 데이터를 최종적으로 메모리나 저장 장치에 기록하며, 정해진 포맷과 저장 공간에 맞춰 데이터를 정렬해 저장 흐름을 마무리합니다.

딥시크의 해당 특허는 데이터를 수집하는 순간부터 압축 후 저장에 이르기까지의 모든 과정을 유기적으로 연결된 모듈 구조로 설계하여, 다양한 형식과 크기의 데이터를 효율적으로 처리할 수 있는 적응형 압축 저장 시스템을 구현하고 있습니다.

● 딥시크 특허의 핵심 장점

본 발명은 증권 시장에서 발생하는 다양한 실시간 데이터를 효율적으로 압축·저장하기 위해 설계된 기술입니다. 다만, 그 구조적 원리와 기술적 특징을 살펴보면, LLM 학습을 위한 데이터 전처리 및 저장 인프라에도 충분히 활용될 수 있습니다.

특히, 해당 특허는 데이터 유형을 자동 분류하고 각 유형에 최적화된 압축 방식을 적용함으로써, 복잡하고 이질적인 데이터를 효율적으로 정리할 수 있습니다. 이는 LLM 학습에 사용되는 멀티모달 데이터, 시계열 정보, 시스템 로그 등 다양한 형식의 데이터를 효과적으로 처리하는 데 적합합니다. 또한, 데이터 크기에 따라 저장 공간을 자동 조절하는 기능을 통해, 저장 효율성을 높이고 메모리 낭비를 최소화하여, 학습 속도와 자원 활용도를 동시에 개선할 수 있다는 기술적 효과가 달성될 수 있습니다. 아울러, 해당 특허에서 사용되는 압축 방식은 차분 계산, 부호 분리 등 계산 복잡도가 낮은 경량 구조로 설계되어 있어, 데이터의 정확도를 유지하면서도 높은 압축률을 달성하고, 실시간 처리에도 적합합니다.

요약하자면, CN 109787638 B 특허는 증권 데이터에 특화된 사례를 중심으로 설명되어 있지만, 그 기술적 메커니즘은 다양한 유형의 대용량 데이터를 다루는 AI 시스템에도 폭넓게 적용될 수 있습니다. 특히 LLM 학습용 데이터를 보다 정확하고 빠르게 처리할 수 있는 기반 기술로서, AI 시스템의 효율성과 확장성을 높이는 데 기여할 수 있습니다.

4. 딥시크의 기술적 기여와 산업적 파급력

이번에 소개한 딥시크의 특허들은 각각의 기술적 강점을 바탕으로, 딥시크의 AI 모델 훈련 성능을 혁신적으로 끌어올리는 데 기여하고 있습니다. 그중 CN118246542 A 발명은 대규모 AI 훈련 과정에서 저장 및 통신 자원의 소모를 획기적으로 줄이는 핵심 기술입니다. 훈련 데이터를 빠르고 효율적으로 관리하고 로딩함으로써, 모델 학습의 병목 구간을 해소하고 전체 처리 속도를 높이는 데 큰 역할을 합니다.

또한, 데이터 로딩이 원활해지면 GPU는 계산에 집중할 수 있는 시간이 늘어나고, 이는 훈련 시간 단축 및 자원 효율성 향상으로 이어집니다. 여기에 딥시크는 FlashAttention 알고리즘을 도입해 Attention 연산을 최적화하고, ZeRO 기반 분산 훈련 기법을 통해 수천 개의 GPU를 동시에 활용 가능한 환경도 구축했습니다.

이와 같은 최적화된 훈련 인프라와 기술들은 AI 산업 전반에서 획기적인 기술 혁신의 기반으로 작용하고 있습니다. 특히, 대규모 모델을 빠르고 효율적으로 훈련할 수 있는 환경을 제공함으로써, 연산 비용 절감, 훈련 속도 향상, 자원 활용 최적화라는 세 가지 핵심 문제를 동시에 해결하고 있습니다.

이는 단순한 성능 개선을 넘어, LLM을 포함한 초대형 AI 모델 개발의 현실적인 장벽을 낮추고, 다양한 기업과 연구기관이 초거대 모델 개발에 뛰어들 수 있는 토대를 마련해 준다는 점에서 그 의의가 큽니다.

결론 : 리소스 효율화 기반 LLM 시대를 여는 핵심 기술

CN118246542 A를 비롯한 관련 특허들은 대규모 AI 모델 훈련에 요구되는 저장 및 통신 효율을 크게 향상시킬 수 있는 기술적 해법을 제시하고 있으며, 이를 통해 훈련 비용 절감과 시간 단축 측면에서 의미 있는 기여를 하고 있습니다. 이러한 기술을 바탕으로 딥시크는 초대형 모델 훈련 및 AI 연구 분야에서 기술적 경쟁력을 입증해 나가고 있으며, 그 영향력 또한 점차 확대되고 있습니다. 앞으로도 이러한 기술들은 LLM 학습의 효율성과 성능 최적화를 뒷받침하는 주요 기반 중 하나로 작용할 가능성이 크며, AI 산업 전반에 새로운 기술적 진화를 이끌어내는 동력으로 자리잡을 것으로 보입니다.

파이특허법률사무소
파이특허는 소프트웨어 및 인공지능(AI) 기술 분야에 특화된 특허사무소로, 업계 내에서 AI 특허 전문가 그룹으로 인정받고 있습니다. 수아랩, 뷰노, 마키나락스 등 국내 1세대 AI 스타트업들과의 협업을 시작으로, 현재는 노타(Nota), 트웰브랩스(TwelveLabs) 등 유망 AI 기업은 물론 홀리데이 로보틱스와 같은 AI 기반 안드로이드 로보틱스 분야까지 그 전문성을 확장하고 있습니다.

목록으로

전문가 문의

여러분의 혁신을 위한 가장 적합한
솔루션을 추천해 드립니다.

문의하기

뉴스레터 구독

매월 1회 IP 인사이트를 모아
뉴스레터로 발송해 드리고 있습니다.

가장 빠르게 Wert Intelligence의
분석 자료를 받아보세요.

타이틀

문의하기 입력 폼

이름

업무용 이메일

휴대전화번호

회사 또는 단체명

회사 구분

직급

개인정보 수집 및 이용 동의 [보기]