inline AI가 데이터 보안을 지키는 방법
inline AI에서 내 데이터가 어떻게 안전하게 처리되는지 알려드리겠습니다.
작성자 이상연
inline AI는 사용자의 데이터 보안을 최우선으로 생각하는 AI 서비스입니다.
우선 가장 중요한 질문에 대해서 답변을 드리겠습니다.
inline AI는 내 자료를 학습하나요? 학습하고 다른 곳에서 쓰이나요?
결론부터 말씀드리자면, 학습하지 않습니다.
따라서 다른 곳에서 쓰일 일도 없습니다.
일부 화면에서 굳이 학습한다고 표현한 이유는, Traning (모델 학습)과 RAG(검색 증강 생성)의 차이점을 설명드리지 않고 가장 간단히 표현하기 위함입니다.
inline AI에서 사용하는 것은 Traning (모델 학습)이 아닌 RAG(검색 증강 생성)이지만, 결과는 같으니, 학습이라는 단어로 안내드리고 있습니다.
홈페이지나 다른 도움말에서는 최대한 쉽게 설명하기 위해 기술 용어를 쓰지 않았습니다.
하지만, 이 글을 보시는 분이라면 정확히 어떻게 데이터 보안이 지켜지는지 알고 싶어하는 분이라고 가정하겠습니다.
따라서, 정확한 용어를 사용하여 안내드리겠습니다.
기본 용어 설명
RAG (Retrieval-Augmented Generation, 검색 증강 생성)
inline AI가 데이터 보안을 지키는 방법을 정확히 알기 위해서는 RAG를 먼저 알아야 합니다.
RAG란, Retrieval-Augmented Generation의 약자입니다. 한국어로는 검색 증강 생성이라고 합니다.
AI 자체를 변경하거나 학습시키는 것이 아니라, 사용자의 명령이 가진 의도와 의미와 가장 관련이 있는 문서를 즉석에서 찾아서 AI에게 제공하는 기술입니다.
RAG를 적용해주면, AI는 마치 공부를 해서 시험을 보는 게 아니라 교과서를 옆에 두고 시험을 보는 것과 같아집니다.
훨씬 정확한 정보를 기반으로 작업을 수행할 수 있습니다.
LLM (Large Language Model, 거대 언어 모델)
LLM은 우리가 평소에 보는 ChatGPT나 Claude와 같은 AI 서비스의 엔진, 즉 AI 자체입니다.
이런 AI 모델은 인간의 언어로 된 텍스트를 대량으로 학습한 LLM, 즉 거대 언어 모델입니다.
LLM 모델은 전부 Transformer 기반의 모델이고, 예전의 AI처럼 사용자의 데이터를 기반으로 점점 똑똑해지는 원리가 아닙니다.
굉장히 잘 정제된 데이터로 미리 학습을 하고, 합격선에 도달하면 학습을 멈추고 사용자들이 쓸 수 있게 공개됩니다.
즉, 이 모델들은 계속 공부하는 학생이 아니라 방금 대학교를 졸업하고 우리 회사에 입사한 신입과 같습니다.
Embedding (임베딩)
Embedding이란, 인간이 사용하는 언어를 기계가 읽을 수 있도록 숫자로 바꾸는 과정을 뜻합니다.
예를 들어서 이 글을 임베딩하면, [0.1258438, 0.9383623, 0.7374039, …] 와 같은 500 ~ 1500개가 넘는 숫자로 변환됩니다.
인간이 읽을 수 없지만, 기계가 읽을 수 있는 수백 ~ 수천 차원의 숫자로 변환되는 것입니다.
초보적인 RAG 시스템에서는 각 문장을 텍스트 기반으로 비교하는 것이 아니라, 의미를 담고 있는 embedding 값의 코사인 유사도를 기반으로 의미론적 유사도를 계산합니다.
inline AI의 작동방식
다음은 inline AI가 데이터 보안을 지키는 주요 방법들입니다.
inline AI 서버 환경에서 작동하는 Modular RAG 시스템
inline AI는 첨단 AI 서비스가 사용하는 Modualr RAG 시스템을 구현했습니다.
LLM이 RAG라는 오픈북 시험을 칠 수 있도록 하려면 오픈 “북”, 즉 교과서가 무엇인지 알아야 합니다.
어떤 작업을 수행하느냐에 따라서 각기 다른 교과서가 필요하기 마련입니다.
예를 들어서 LBox나 슈퍼로이어와 같은 법률 전문 AI는 법령/판례 데이터셋을 기반으로 RAG를 설계했습니다.
inline AI는 사용자가 업로드하는 파일과 데이터를 그 “교과서”로 삼습니다.
사용자가 파일이나 사진을 채팅에 추가하면 해당 파일을 내 컴퓨터 속에서 해체하고 분석해서 Embedding을 진행합니다.
그리고 각 파일 속의 문장/단락/섹션 들의 Embedding 값과 현재 내가 하고 있는 작업의 Embedding 값 간의 코사인 유사도를 계산 (Dense Retrieval의 경우) LLM에게 가장 알맞는 문맥을 넣습니다.
이 모든 과정을 거치면서 사용자가 추가한 파일이나 사진은 inline AI 고유 서버에 저장되며, AES-256의 보호를 받습니다. 원문 데이터 전체가 아니라 파편화되고 비식별화된 정보만 저장합니다. 일례로 1500개의 숫자가 나열된, 즉 난독화된 Embedding 값을 통해 의미론적 유사성을 유추합니다.
다른 서비스와의 차별점
LLM으로 데이터가 전송되는 전처리 과정을 전부 로컬 환경에서 한다면, 어떤 것이 달라지는지 말씀드리겠습니다.
ChatGPT, Claude 또는 Web 기반의 SaaS 서비스와는 달리
사용자의 문서가 외부 서버로 전송되지 않습니다.
inline AI에서는 문서를 열지 않습니다.
사용자가 작성하고 있는 문서는 한글 프로그램으로 열린 문서입니다.
사용자가 어떤 글을 쓰고 있는지 한컴이나 MS에서 알 수 없는 것처럼, 문서 파일은 누구도 볼 수 있습니다.
문서에 대한 데이터 전처리를 하지 않습니다.
다른 서비스를 사용한다면, AI와 함께 사용하는 모든 자료는 서비스를 제공하는 회사에 전송되고 저장됩니다.
예를 들어서 ChatGPT로 문서를 작성하기 위해서는 서식 파일 또는 기존 파일 자체를 채팅에 올려야 합니다.
물론 이 회사들은 정말 대단하고 건실한 기업들입니다.
다만 내 데이터, 내 의뢰인의 데이터, 내 회사의 데이터, 내 학생의 데이터가 언젠가는 유출될 수도 있다는 걱정을
아예 하지 않을 수는 없습니다.
inline AI는 사용자가 그런 걱정조차 할 필요 없도록, 원천적으로 데이터 보안만 염두에 두고 설계되었습니다.
OpenAI와 Anthropic에도 파일이 전송되지 않습니다
그러나 AI, 즉 LLM을 사용하려면 데이터를 AI 모델 공급사에 전송해야 합니다.
이 경우, 거의 모든 SaaS 서비스는 파일 자체를 OpenAI나 Anthropic과 같은 외국 AI 모델사에 전송합니다.
inline AI는 다른 서비스와 달리 회사 내부의 중요 정보가 담긴 파일을 전송하지 않습니다.
파일을 해체해서 하나만 봐서는 의미가 완성되지 않는 난독화된 텍스트들로 만든 다음, 현재 사용해야 할 정보만 담아서 보냅니다.
inline AI는 OpenAI와 Anthropic 2개사의 모델만 사용하고 있고,
파편화된 정보조자 저장하지 않는다는 Zero Data Retention Agreement를 체결했습니다.
inline AI는 사용자의 데이터를 최우선으로 보호하면서도 강력한 AI 기능을 제공하는 균형 잡힌 AI 솔루션입니다.
로컬 환경에서 작동하는 특성으로 인해 민감한 정보가 포함된 문서도 안심하고 처리할 수 있습니다.
추가 문의사항이 있으시다면, inline AI 고객센터에 언제든지 문의해주시기 바랍니다.