기사제보 |  광고문의 |  발행일: 2025-10-22



문화경제신문

구글 딥마인드, AI 학습 데이터

천경선 기자 (latte1971@gmail.com)


구글 딥마인드, AI 학습 데이터

천경선 기자 (latte1971@gmail.com)




최초 작성일 : 2025-09-16 | 수정일 : 2025-09-30 | 조회수 : 1003


구글 딥마인드, AI 학습 데이터
핵심 요약
구글 딥마인드가 유해하거나 민감한 데이터 때문에 폐기되던 AI 학습 데이터를 정제, 재활용하는 '생성 데이터 정제(GDR)' 기술을 공개했습니다. 이 기술은 기존 데이터를 활용하여 데이터 고갈 문제를 완화하고 AI 모델 성능을 향상할 것으로 기대됩니다. GDR은 사전 훈련된 생성 모델을 이용해 문제가 있는 데이터를 분석하고 맥락에 맞게 재작성하며, 인간 라벨러보다 뛰어난 정확도를 보였습니다.

거대 IT 기업 구글이 인공지능(AI) 개발의 난제로 꼽히던 데이터 확보 문제를 해결할 수 있는 혁신적인 기술을 선보였습니다. 구글 딥마인드는 그동안 AI 학습 과정에서 유해하거나 민감한 정보 포함을 이유로 버려졌던 방대한 양의 데이터를 정제하고 재활용하는 새로운 방법론을 공개하며, AI 데이터 고갈을 늦추고 모델 성능을 획기적으로 개선할 수 있다고 주장했습니다. 이 기술은 '생성 데이터 정제(Generative Data Refinement, GDR)'로 명명되었습니다.

AI 학습 데이터의 딜레마: 버려지는 정보와 데이터 고갈

대규모 언어 모델(LLM)을 비롯한 최신 AI 기술은 방대한 양의 데이터를 학습해야 성능을 발휘합니다. 하지만 현실적으로 AI 학습에 사용되는 데이터 중 상당수는 개인 식별 정보, 편향된 내용, 부정확한 사실, 혹은 불법적이거나 유해한 정보를 포함하고 있어 그대로 활용하기 어려운 경우가 많았습니다. 예를 들어, 웹 페이지에 누군가의 전화번호나 잘못된 정보가 포함되어 있다면, 해당 데이터를 통째로 폐기하는 것이 일반적인 관행이었습니다.

이러한 데이터 처리 방식은 AI 학습에 필요한 데이터 양을 급격히 감소시키는 '데이터 고갈' 문제를 야기할 뿐만 아니라, 유용한 정보까지 함께 버려짐으로써 AI 모델이 학습할 수 있는 데이터의 질적 저하를 초래한다는 지적이 꾸준히 제기되어 왔습니다. 더불어 최근에는 AI가 생성한 데이터(합성 데이터)의 부작용과 한계가 부각되면서, 기존에 축적된 데이터를 최대한 효율적으로 활용하려는 움직임이 중요해지고 있습니다. 이러한 배경 속에서 구글 딥마인드의 연구는 기존 데이터를 효과적으로 재활용하는 새로운 해법을 제시했다는 점에서 큰 의미를 지닙니다.

GDR, 폐기될 데이터를 '학습 가능한 자원'으로 변환하다

이번에 공개된 '생성 데이터 정제(GDR)' 기술은 사전 훈련된 생성 모델을 활용하여 문제가 있는 데이터를 분석하고, 맥락에 맞게 수정하여 다시 작성하는 방식입니다. 구체적으로 GDR은 데이터 내에 포함된 유해하거나 민감한 정보를 식별하고, 이를 자동으로 교체하거나 삭제합니다. 단순한 제거를 넘어, 해당 정보가 문서 전체의 맥락에 미치는 영향을 고려하여 불필요한 정보는 무시하고, 사용 가능한 핵심 정보만을 보존하여 자연스럽게 재작성하는 고도화된 정제 과정을 거칩니다.

예를 들어, 특정 웹 페이지에 개인 전화번호가 포함되어 있다면, GDR은 이를 감지하여 익명화 처리하거나 제거하는 동시에, 해당 전화번호가 문서의 전체적인 흐름을 해치지 않도록 문맥을 조정합니다. 이 과정에서 중요한 정보가 손실되거나 왜곡되는 것을 최소화하며, AI 학습에 적합한 형태로 데이터를 변환합니다. 구글 딥마인드 측은 이 기술이 특히 "프론티어 모델을 확장하는 데 강력한 도구가 될 수 있다"고 강조하며, AI 연구 및 개발의 새로운 지평을 열 것으로 기대하고 있습니다.

인간 전문가 능가하는 정확도, 데이터 다양성까지 확보

GDR 기술의 핵심적인 강점은 그 성능에 있습니다. 이전에도 데이터 내 개인정보를 익명화하거나 유해 콘텐츠를 필터링하는 다양한 솔루션이 존재했지만, 구글 연구진은 GDR이 이들 솔루션을 월등히 뛰어넘는 정확도를 보인다고 발표했습니다.

구글 딥마인드 연구팀은 "이번 결과는 데이터 정제에 사용되는 기존 솔루션을 완전히 능가한다"고 강조했습니다.

연구진은 100만 줄이 넘는 코드를 대상으로 전문 라벨러가 수동으로 주석을 달아 정제하는 작업과 GDR을 통해 정제된 데이터를 비교하는 실험을 진행했습니다. 그 결과, GDR이 인간 전문가보다 더 높은 정확도로 데이터를 처리하는 것을 확인했습니다. 이는 복잡하고 방대한 양의 데이터를 효율적으로, 그리고 높은 신뢰도로 정제할 수 있음을 시사합니다.

또한, GDR은 AI 학습 데이터셋이 가진 고유한 다양성을 유지하면서도 유해하거나 저작권 문제가 있는 데이터를 효과적으로 걸러낼 수 있다는 장점을 지닙니다. 이는 AI 모델이 특정 데이터 편향에 빠지거나 '모델 붕괴(model collapse)' 현상을 겪게 하는 합성 데이터의 한계를 극복하는 데 기여할 것으로 보입니다. 즉, GDR은 단순히 데이터를 '깨끗하게' 만드는 것을 넘어, AI 모델이 더욱 견고하고 일반화 성능이 뛰어난 학습을 하도록 지원하는 핵심 기술로 평가받고 있습니다.

💡 용어 설명: 모델 붕괴 (Model Collapse)
AI 모델이 생성한 데이터를 다시 학습 데이터로 사용하는 과정에서 발생하는 문제로, 모델이 점차 다양성을 잃고 편향되거나 성능이 저하되는 현상을 의미합니다.

텍스트 넘어 오디오, 비디오까지 확장 가능성 제시

이번 연구에서는 GDR 기술을 주로 텍스트와 코딩 데이터에 적용하여 그 효과를 입증했습니다. 하지만 구글 연구진은 향후 GDR이 오디오, 비디오 등 다른 형식의 데이터에도 충분히 적용될 수 있다는 확장 가능성을 시사했습니다. 다양한 유형의 데이터를 포함하는 멀티모달 AI 모델 개발에 있어서도 GDR은 핵심적인 역할을 수행할 수 있을 것으로 전망됩니다.

한편, 이번 논문은 지난해 9월에 작성되었음에도 불구하고 약 1년 만에 공개되었습니다. 이는 논문의 주요 저자 중 한 명인 민치 지앙이 최근 메타의 슈퍼인텔리전스 랩(MSL)으로 이직하면서 이루어진 결정으로 알려졌습니다. 이로 인해 구글이 해당 기술을 그동안 비밀리에 개발해왔는지, 그리고 이 기술이 구글의 차세대 AI 모델인 '제미나이(Gemini)'의 성능 향상에 어느 정도 기여했는지에 대한 궁금증이 증폭되고 있습니다.

⚠️ 향후 전망 및 리스크
구글의 GDR 기술 공개는 AI 데이터 확보 및 정제 과정에 새로운 표준을 제시할 것으로 기대됩니다. 하지만 이 기술의 광범위한 적용이 가져올 잠재적 위험, 예를 들어 데이터 프라이버시 침해 가능성이나 기술의 오용 가능성에 대한 심도 깊은 논의와 사회적 합의가 필요할 것입니다. 또한, GDR이 생성하는 데이터의 윤리적 문제에 대한 지속적인 검토도 요구됩니다.
Tags  #인공지능  #구글  #딥마인드  #AI  #인공지능  #학습  #데이터  #데이터  #정제  #GDR  #Generative  #Data  #Refinement  #LLM  #대규모  #언어  #모델  #데이터  #고갈  #모델  #성능  #기술  #논문  #메타  

Author Photo
천경선 기자

(latte1971@gmail.com)

문화경제일보 경제부

닉네임:
댓글내용:
🎖️ '문화경제신문' 카테고리의 다른 인기글

📸 이미지 프롬프트 복사 완료!
이제 어떤 이미지 생성 도구로 이동하시겠어요?
🧠 ImageFX 🧪 Whisk