본문 바로가기
공부하기/FUTURE industry-메타버스

구글 검색의 시대 ... 멸망

by 리치캣 2024. 9. 6.
반응형

(1부) 구글 검색의 시대 끝날 것 같습니다 (솔트룩스 이경일 대표)

https://www.youtube.com/watch?v=aMtvJoE_EJQ

이 영상은 인공지능 검색 기술에 대한 깊은 통찰을 제공합니다. 우리는 정보의 양이 폭발적으로 증가하면서 기존 검색 엔진의 한계를 경험하고 있습니다. AI 검색 기술은 이러한 문제를 해결하기 위한 혁신적인 접근 방식을 제시하며, 사용자가 필요한 정보를 더 빠르고 정확하게 제공받을 수 있도록 돕습니다. 이 영상은 AI 검색이 정보를 효율적으로 처리하는 방식에 대한 이해를 높이고, 사용자가 어떻게 AI 기술을 활용할 수 있는지에 대한 인사이트를 제공합니다.

핵심주제

구글 검색 시대의 종말이 다가오고 있는 가운데 AI 검색 기술이 주목받고 있다.
  • AI 검색 기술은 기존의 검색 방식을 뛰어넘어 비서 역할을 수행하며, 사용자의 질문에 자동으로 답변할 수 있다.
  • 특히 서치 GPT의 출현은 구글의 시장 점유율에 큰 영향을 미쳤고, AI 검색의 필요성을 더욱 강조하고 있다.
  • 이와 같은 변화는 정보의 양이 급격히 증가함에 따라 AI 기술의 발전이 필수적이라는 것을 보여준다.
AI 검색 기술은 정보를 보다 효율적으로 제공해, 사용자가 원하는 내용을 쉽게 찾을 수 있도록 돕는다.
  • AI는 방대한 정보를 요약하고 정리하여, 사용자가 쉽게 접근할 수 있도록 만들어준다.
  • 과거에는 정보의 양이 방대하여 사용자가 필요한 정보를 찾기 어려웠지만, AI가 이를 개선하고 있다.
  • 이 과정에서 AI는 문서를 벡터로 변환하여 의미 검색의 정확성을 높인다.
RAG 기술과 AI의 결합은 정보 제공의 정확도를 높인다.
  • RAG 기술은 ChatGPT에 정보를 제공하여 사용자가 원하는 정확한 답변을 끌어낼 수 있도록 돕는다.
  • 이 기술은 퍼플렉시티와 같은 회사들이 빠르게 성장하게 만드는 중요한 요소가 되고 있다.
  • AI와 RAG 기술의 결합으로, 기존의 검색 한계를 극복하고 효율적인 정보 검색이 가능해진다.
정보 검색 시스템의 발전은 사용자 경험을 향상시키는데 기여하고 있다.
  • AI 검색 기술은 사용자가 여러 번 클릭하거나 검색 결과를 모두 읽어보는 불편함을 줄이는데 도움을 준다.
  • 효율적인 검색 방법은 정보의 질을 높이는 동시에 검색의 복잡성을 줄이고 있다.
  • 빠른 속도와 품질을 동시에 제공하는 AI 검색이 미래의 정보 검색 트렌드가 될 것으로 예상된다.

타임라인

완벽노트(GPT-4o) 적용됨GPT-3.51. 🔍 AI 검색의 현재와 미래00:00:00

  • AI 검색이 최근 해외에서 유행 중이며 구글이나 네이버와 같은 기존 검색 방식을 대체할 가능성이 커지고 있다.
  • 비서 역할을 하는 AI 검색 기술이 개발되어 사용자가 질문하면 자동으로 검색하고 결과를 제공할 수 있게 되었다.
  • 검색 AI 시장에서 검색 엔진과 AI 기술을 모두 잘 다루는 회사의 예로 미국의 u.com퍼플렉시티가 있다.
  • 채팅 GPT와 같은 생성형 AI의 한계를 극복하고, AI 검색 기술을 통해 문제 해결 방안 모색이 중요하다.
  • 오픈 AI의 서치 GPT 출시에 따라 구글의 주가가 3% 하락하는 등, 시장에 큰 영향을 미치고 있다.
원문 스크립트 보기
세상의 모든 지식, 언더스탠딩. 생업에 바빠서 배우지 못하고, 배우지 못하니 알지 못하고, 알지 못하니 보지 못하는, 혹시 말 듣던 것 같은데 여러분들을 위한, 오로지 여러분들을 위한 방송, 예, 언더스탠딩입니다. 지식형 성인 방송, 언더스탠딩입니다. 요즘 해외에서도 그렇고, 예, AI 검색, 검색 AI 이런 게 유행이래요. 우리 궁금한 거 있을 때 구글 들어가면 이제 약간 좀 옛날 사람 취급하는 그렇죠? 구글 해도, 뭐, 네이버 해도 대충 나오긴 나오는데, 음, 꼭 비서처럼 누가 검색해서 대충 알려주면 얼마나 편리할까. 그 이제 AI에게 시키면 자기가 검색해서, 네, 착 보여준다. 우리가 인공지능을 만든 보람이 그거잖아요? 비서처럼 부려먹기. 그렇습니다. 어, 그래서 요즘 그런 게 조금씩 상업화되고 있는데, 도대체 이게 어떻게 되는 건지, 뒤에 비서가 숨어 있는 건지, 뭐, 이 검색 AI 시장에 대해서 자세하게 알아보겠습니다. 네, 오늘 모시는 이분은 우리에게 인공지능의 세계에 대해서 처음 눈을 뜨게 해 주신 분이에요. 그렇죠? 그렇죠? 지금만 해도 다들 인공지능, 뭐, 뭐냥 그런 거 아니야? 그렇습니다. 그러나 생각해 보십시오. 2년 전, 1년 전 우리가 인공지능에 대해서 일자 모시길 때, 그렇습니다. 홀연히 나타나서 내가 너희들에게 인공지능에 대해서 이야기해 주리라. 그렇습니다. 네, 바로 이 분이십니다. 인공지능 계의 일타강사, 경배하라, 트록스. 어, 네, 님께서 오세요. 반갑습니다. 네, 안녕하세요. 오랜만에 뵙습니다. 타 강사가 또 오셨으니까 엄청 기대됩니다. 어, AI 3촌, 어, 이정 대표님, 네, 검색 AI, AI 검색이 맞습니까? 검색 AI 맞? 뭐, 그게 AI 검색이나 검색 AI, 뭐, 어떤 정의된 문장은 아니니까요. 편하게 쓰시면 될 것 같은데, 대부분 AI 검색이라고 하는 것 같아요. 검색은 왜냐면 기술적으로는 검색의 기반에서 AI 답변도 하고 뭐 하는 건데, 실제로 사용자가 기대하는 것은 결과는 검색 결과인 것 같아요. 그래서 AI 검색을 해 준다 해서 AI 검색이 더 자연스러운 표현 같긴 해요.. 음, 그러면 그거는 지금 막 AI 채팅 GPT, 이런 애들 많이 만들잖아요. 솔트룩스 AI 열심히 하고 계시고, 그럼 AI 잘 만드는 회사가 AI 검색도 잘 만드는 겁니까? 그냥 그럴 수도 있고, 안 그럴 수도 있는 것 같아요. 왜냐면 갑자기 생성 AI 태풍이 불다가, 올해 여름 정도부터 본격적으로 이제 검색 AI 또는 AI 검색에 관련된 관심이 엄청 커졌거나. 네, 그 맨 처음에 시작했던 회사는 미국의 u.com이라는 서비스예요. 처음 들어보셨죠? 그냥 진짜로 u.com이에요. 음, 예. 그래서 제가 그 자료 같은 거 몇 개 가져왔는데요. 예, 닷컴이 그 서비스를 초창기부터 시작했어요, 작년 초부터. 음, 그런데 홀연히 퍼플렉시티라는 회사가 나타났는데, 이 두 회사 다 AI 제일 잘하는 회사라고 보기도 어렵고, 검색을 제일 잘하는 회사라고 보기도 어려운 거죠. 네, 구글도 아니고, 네이버도 아니고, 그죠? 물론 퍼플렉시티 대표 같은 경우는 구글 계열 회사죠. 딥마인드에 있었고 오픈AI도 있었긴 했어요. 근데 초창기부터 우리가 흔히 말하는 거대 언어 모델이란 걸 만들어서 채팅 GPT를 만들어서 잘 물어보면 대답하고 하는 게 아니라, 얘가 가지고 있는 한계를 집중을 한 거죠. 음, 오늘 그 얘기도 좀 할 텐데, 도대체 채팅 GPT는 무슨 한계를 가지고 있고, 음, 그리고 AI 검색은 이걸 어떻게 문제 해결을 한 걸까요? 오, 조금 다른가 보네요. 어쨌든 네, 그렇죠. 그런 얘기들을 좀 해 볼 것 같아요. 그래서 유닷컴, 퍼플렉시티, 그리고 국내 기업이지만 미국 기업인 구버, 그리고 최근에 서치 GPT, 고 그 오픈 AI 이제 내놨는데, 그 내놨다는 말 한번 한 걸 같고, 구글의 주가가 3% 떨어졌거든요. 맞아요? 예, 예. 그러니까 그만큼 임팩트가 있다고 보는 거죠. 음, 네, 조금 배워보겠습니다. 어떤 건지.

 

2. 검색의 필요성과 AI의 역할에 대해00:04:10

  • 우리가 검색이 필요한 이유와 진화의 본질에 대해 이야기해야 합니다.
  • 인류인 호모 사피엔스는 30만 년 전부터 존재했지만, 그간의 진화는 미비한 것으로 보이며, 정보의 양은 시간이 지남에 따라 급격히 증가했습니다.
  • 글자가 만들어진 이후 1인당 정보량은 20년 사이 천만 배 증가하였고, 이는 우리가 소비할 수 있는 정보량을 초과합니다.
  • 구글이나 네이버를 통해 정보를 검색하더라도 결과는 방대하여, AI 검색 기술이 이를 해결할 방안으로 등장했습니다.
  • AI는 사람이 대신하여 정보를 요약하고 정리함으로써, 우리가 필요한 답변을 쉽게 찾을 수 있게 도와줍니다.
원문 스크립트 보기
그럼 그 얘기 하기 전에 일단 왜 우리가 검색이 필요한지에 대한 얘기를 좀 해봐야 될 것 같아요. 예, 그래서 우리 종족을 호모 사피엔스라고 그러잖아요. 우리 종족 외에도 지구상에는 대략 13개에서 15개 종족이 있었어요.. 예, 그러니까 지금 여기서 말하는 종족, 백인, 흑인, 뭐, 동양인 이런 얘기가 아니고요. 우리는 모두 다 호모 사피엔스 종족인데, 뭐 내연 델타 인이라 그지. 그런데, 우리 호모 사피엔스가 나온 지 한 30만 년 정도 됐다고 추정을 하는데요. 그 30만 년 동안 우리는 진화를 했을까요? 어때 보이세요? 더 똑똑해진 것 같아요? 사피엔스. 살짝 진화? 살짝 진화? 그래, 그래도 모르겠네. 그러니까 그건 그 정도 때 태어났던 아기와 요즘 태어났죠. 요즘 태어났던 아기가 더 똑똑하냐? 그렇죠? 그걸 봐야죠. 그래야 진화한 걸 알 수 있지. 그죠? 음, 근데 결론만 보면 그닥 진화한 것 같진 않다는 거거예요. 그래서 사실 진화의 본질 중에서는 종의 진화죠. 우리가 종이 바뀌어야 돼요. 다른 종으로. 근데 우리가 그냥 똑같은 종이니까. 그래서 제가 계산을 해 봤는데, 그러면 옛날에 글자가 나오기 전에는 정보량이 한 사람이 학습하고 평생 외울 수 있는 양이 얼마나 될까? 음, 음, 얼마나 될까 보면은 평생 제가 말할 수 있는 양 이상은 아닐 것 같아요. 음, 그렇죠? 제가 평생들 수 있는 양. 지금 계산해 본다면 대략 500MB 정도밖에 안 돼요. 요즘 USB도 안 들어가는 그랬다가 이제 큰 변화가 일어난 게 글자가 만들어지고 나서죠. 그래서 참고 화면을 보면, 글자가 만들어진 게 대략 5,000년 전이거나 예, 그러고 나서 예를 들자면, 인쇄가 발명되고 월드와이드 웹, 스마트폰이 발명된 이후 1인당 정보량이 급격하게 늘어나기 시작해요. 그런데 이 1인당 정보량이 어느 정도냐면, 이미 다 아시는 얘기일 텐데 20년간 1인당 정보량이 천만 배 증가했어요. 세상에 쏟아져 나오는 정보의 양을 인구 숫자로 나눈 거죠. 그렇죠? 예. 그런데 그렇게 나눠 보면, 쉽게 얘기하면 지금 생성되는 양 중에서 저한테 관련 있는 것만 본다고 하더라도, 한 시간 동안 제가 읽을 수 있는 것에 비해서 대략 1억 배 이상의 양이 같은 시간에 생성이 되는 거예요. 생성되고 있어요. 죽을 때 깨도 못 쫓아가요. 그렇죠? 불가능한 거죠. 네. 그래서 지금 검색 엔진의 한계를 보면 이래요.. 네이버나 구글, 요즘 많이 안 쓰지만 구글에 들어가서 '3% TV'나 '언더스탠딩'을 넣으면, 검색 결과가 몇 개나 나올까요? 어마어마하게 나올걸요. 최소한 몇 억 개 이상은 나올 거예요. 물론 그거를 다 보여주지도 않지만, 그럼 제가 그중에서도 '아, 이거 3% TV 언더스탠딩을 골라봐야겠다' 그러면 키워드를 몇 개를 추가하죠. 그래도 몇 만 개가 나오죠. 그럼 몇 만 개 나온 거를 제가 보기 위해서 처음부터 뭘 하냐면, 하나씩 클릭을 해보는 거죠. 그렇죠? 구글의 방식, 그죠? 그나마 관련성 높은 걸 위에다 올려주니까, 그렇죠? 그래서 1번을 클릭해서 위로 올라가고, 2번을 올려놓고, 그리고 나서 읽어요. 보고 있는 거죠. 그리고 이거 내가 관심 있는 건가 아닌가를 보는 거죠. 그게 우리가 경험하는 검색인데, 문제는 이제 정보량이 너무 많기도 해서 검색을 옛날에는 구글이 뭔가 혜택을 딱 줬는데, 이제는 그것도 재앙인 거예요. 너무 많은 정보를 제가 어떻게 다 읽고 그걸 이해하겠어요? 예, 그래서 그 문제를 해결을 AI가 해주자라고 하는 게 AI 검색 기술이라고 보시면 될 것 같아요. 그러면 그 AI가 사람이 하는 거랑 똑같은 짓을 하는 거예요. 검색을 했어. 그럼 구글에 눌러서 사실은 사람이 봐야 되는데, 일일이 다 볼 수 없으니, AI가 먼저 그걸 다 봐 그리고 네가 다 보고 요약 정리 좀 해. 와, 그건가요? 딱 목적은 비슷해요. 요약 정리 분만을 물어보는 거에 답을 찾아내는데, 그 문서들에서 검색해서 답을 찾는 게 아니라 문서를 읽고 그걸 이해해서 답을 생성하는 거죠. 아, 여기 있는 겁니다. 아니고 그걸 읽고 내가 요거 요거 요거 참고해서 새로 글을 써주는 컨셉이죠. 그렇죠? 그래서 글을 써내는 거예요. 그 문서를 보고 문서에 있는 거를 발췌해서 이게 답입니다. 아니라, 아 그니까 이게 완전히 다른 거죠. 차원 자체가 좀 다르고요.

 

3. 시험과 채팅GPT: 효율적인 학습 방법00:08:28

  • 오늘 설명할 내용은 시험과 유사한 어려운 기술에 관한 것입니다.
  • 학생들은 공부를 하면서 간혹 컨닝 페이퍼를 만들고, 힌트를 참고하기도 하는데, 이는 여러 가지 문제를 동시에 해결하기 위한 방법입니다.
  • 예를 들어, 교수님이 '오픈 북'이라고 말했을 때, 밤새도록 준비한 공부가 무의미할 수 있습니다.
  • 채팅 GPT는 학습을 통해 이전 데이터를 기반으로 즉각적으로 답변을 생성하는데, 이 과정에서 많은 이해가 필요합니다.
원문 스크립트 보기
오늘 조금 있다가 좀 어려운 기술이지만 편하게 설명을 하면 시험 보는 거랑 비슷해요. 제가 두 분 재밌으라고 장표를 가져왔는데, 혹시 해보셨어요? 그 치팅, 그거 하고.. 닝, 해봤죠? 어떤 방법 해보셨어요? 손가락이 나만 하지? 손가락이 저 손바닥 위에. 저, 다 해보셨어요? 다 해봤다. 뭐, 예를 들면 벽에다가 해놓고, 책상에. 아, 짜책상 바꾸라고 한 형들 진짜 좋죠. 짜증나지. 공부를 잘해도, 예, 그렇게 컨닝을 해야 되는군요. 기억력이 한계가 있으니까, 그리고 공부를 열심히 할수록 저게 필요해요. 공부를 안 하면, 컨닝 페이퍼도 필요 없고, 다른 사람의 것을 이렇게 복사를 해서 축소 복사를 해서 안 그래 보신 모양이시네요. 근데 제가 왜 이 이야기를 꺼내냐면, 여러 가지 문제가 동시에 발생할 수 있잖아요. 다 기억할 수는 없어요. 아, 그렇죠? 수없이 그걸 다 격리 못 하니까, 힌트 같은 걸 참고하는 걸 컨닝 페이퍼에 넣는 거죠. 치팅 하려고. 그런데 갑자기 그렇게 해서 밤새도록 외우고 공부할 생각 안 하고, 저 대학교나 대학원 다닐 때 친구들은 커닝 페이퍼를 밤새 만드는 친구들이 있었어요. 네, 세네 번 접어 가지고서 이렇게. 그런데 갑자기 교수님이 들어와서 '야, 오늘은 오픈 북이야'라고 했을 때, 그 친구는 밤새 한 게 아무런 도움이 안 될 거 아니에요? 의미가 없죠. 달부커를 오려 짜내지. 그래서 피하고, 그다음에 AI 검색이 뭐냐면, 채팅 GPT는 책을 100만 건 주고, '너 이거 다 읽고 외우고 이해한 다음에 우리가 질문하면 너 외워서 답변해' 하는 거죠. 그렇죠? 근데 진짜는 외우는 건 아니에요. 외운다기보다는 나름대로 이해를 하는 건데, 어쨌든 학습해서, 학습해서 시험 문제가 딱 나오면, '이게 시험 문제다'라고 딱 생각해서 답변을 하는 게 채팅 GPT예요. 이미 공부해 놨으니까 그렇죠? 그런데 그거는 채팅 GPT가 공부를 정말 많이 해야 돼요.

 

4. 🤖 검색의 중요성과 AI의 발전00:10:38

  • AI 검색과 오픈 북 시험의 차이에 대해 이야기하며, 학습 능력을 갖춘 AI가 정보를 빠르게 검색할 수 있음을 강조한다.
  • OpenAI ChatGPT와 같은 AI는 기존 검색 기술에 학습 능력을 추가하려 하고 있으며, 이는 고등학생 수준의 AI가 정보를 모으는 것과 유사하다.
  • 검색의 정의는 정보를 비슷한 키워드를 중심으로 인덱싱하며, 이를 통해 원하는 정보를 찾는 것이 목표이다.
  • 구글은 저렴하게 다양한 정보를 수집할 수 있는 능력을 가지고 있으며, 이는 컴퓨터 기술이 발전하면서 가능해졌다.
원문 스크립트 보기
100만 권을 읽었다고 하죠? 그런데 지금 우리가 하고 있는 AI 검색 같은 경우는 100만 권 읽기 있어서 맨날 놀았어요. 뭐, 미팅도 하고, 대학교 때 맛있는 것도 먹고 술 한 잔 먹고 그러니까 취해 가지고 잠들어 버렸고, 딱 책을 한 두세 권 읽었지만 그래도 대충 분위기는 알아요. 어느 챕터에 뭐가 있는 정도는 책을 피면 아는 거죠.. 그때 선생님이 교수님이, "야, 오늘은 오픈 북이야. 그러면 두 사람의 성적 차이가 얼마가 날까요?" 별로 안 날 것 같아요. 그렇죠? 예, 그게 바로 ChatGPT와 그다음에 AI 검색의 차이예요. AI 검색은, "야, 너한테 오픈북 시험을 보게 할 텐데 질문할 텐데, 그 질문과 관련된 문서들을 네가 구글에서 검색하던 인터넷에서 검색하던, 네가 이미 모아놓은 문서가 있으면 그 중에 찾아서, 그래서 그거를 네가 그 순간에, 컴퓨터는 빠르니까요, 빨리 읽어보고 네가 공부했던 거고, 그 앞에서 답을 해." 이렇게 되는 거죠. 그러니까 오픈북 시험하고 같은 거라고 보셔도 돼요. 미리 공부를 안 하는 겁니까? 그럼, 근데 공부를 해야 돼요. 하긴 하는데, 도대체 어떤 공부냐는 어... ChatGPT 4나 4.5처럼 어마어마한 공부를 해서 모든 걸 다 외워서, "난 천재야. 모든 걸 다 외우고 있어."가 아니라, 대충 이제 중요한 것들을 요약해서 공부하고, 커닝 페이퍼 정도로 요약된 거를 공부해. 애가 이제는 오픈 북을 하는 거죠. 그런데 이제 최근에는 아시는 것처럼, 그 큰 거를 만든 OpenAI ChatGPT에다가도 검색 기술을 붙이려고 하는 거죠. 음... 학습 능력까지도 같이. 그래서 모든 검색 AI, AI 검색 시스템은 모두 다 학습 능력은 있는 거예요. 그러니까 박사한테 일 시키는 거고, 외워서 답변해라. AI 검색은 속동 능력이 있는 고등학생 정도한테 툭 던져주고, "자, 공부해서 답 가져와." 아는 거고, 그렇죠? 그런데 이제 그러다 보니까, 공부를 조금 한 친구가 뇌를 더 작게 만들 수도 있잖아요. 그렇겠죠? 유용네. 그런데 결과물은 비슷하다. 그러면 공부를 안 하는데도 불구하고 얘가 그럴듯한 답변을 내놓기도 하는 거죠. 음... 어쨌든 공부를 하고 안 하냐가 중요한 건 아닌 것 같고요. 오픈 AI, 심지어는 공부까지 한 박사한테 오픈북 시험을 지금 시키려고 하니까, 그걸 보고 이제 경각심을 가지기도 하고 긴장도 하는 거죠. 그런데 하여튼 이 얘기를 조금 더 하기 전엔 도대체 검색이 뭔지를 얘기해야 돼요.. 그렇죠? 예, 검색이 뭘까요? 혹시 두 분 검색하면 검색이 뭘까? 검색, 검색. 검색이라는 건요, 세상에 있는 정보를 비슷한 키워드를 중심으로 인덱싱한 결과를 보여주는 거죠. 많이 많이 유사합니다. 우리는 검색 그러면 네이버에서 문서와 정보를 정확하고 많이 찾아주는 게 목표죠. 그래서 정보 검색을 하거나 문서 검색을 한다고 하면 네 가지 요소가 있어요. 첫 번째, 내가 원하는 걸 이 녀석이 수집을 일단 해야 되잖아요. 예. 그런데 그걸 구글이나 네이버, 특히 구글은 굉장히 저렴하게, 엄청나게 많은 정보를 전 세계 언어로 수집할 수 있는 능력을 가지고 있죠. 예, 그래서 이걸 롤링이라고 해요. 유명한 얘긴데, 구글이 스탠포드에서 창업을 했을 때 자신들이 쓸 수 있는 컴퓨터가 없어서 고장난 컴퓨터나 싼 컴퓨터를 모아 가지고 시작을 했거든요.

 

5. 🧠정보 검색 시스템의 발전과 도전00:14:12

  • 이코노믹한 시스템을 구축하여 문서를 가져오고 단어 검색을 통해 내용을 추출하는 기술이 중요했다.
  • 형태소 분석이나 스캐닝을 통해 핵심 단어를 뽑아내고 색인을 생성하여 사용자에게 유용한 정보를 제공하는 방식으로 검색 기술이 발전했다.
  • 20년 전에는 정확한 정보를 찾아내기가 어려운 공학적 도전 과제가 있었으며, 사용자의 요구를 어떻게 파악하는지가 중요했다.
  • 정보를 더 많이 찾으려면 정확도는 떨어지는 불확정성의 원리가 적용되어, 정보의 양과 정확도 사이의 균형을 유지하는 것이 과제였다.
  • 속도와 정확성을 높이기 위해 연구가 진행되었으며, 그 결과 사용자에게 더 중요한 정보를 제공하는 것이 가능해졌다.
원문 스크립트 보기
그래서 굉장히 이코노믹한 시스템을 만들었다는 얘기도 있어요. 두 번째는 그렇게 문서나 정보를 가져오면, 아까 단어로 검색한다 그랬잖아요? 사람들이요. 그럼 안에 무슨 단어가 있는지를 뽑아내야 돼요. 그래서 그걸 우리는 형태소 분석을 하거나 스캐닝을 하는데, 문서를 옛날 기계나 소프트웨어가 읽고 단어들을 쪼개내는 거예요. 예를 들자면, '산프 TV 언더스탠딩 대한민국의 지식을 뭐 뭐를 해' 그러면... 언더스탠딩, 대한민국. 이런 단어를 잘라내는 거죠. 그걸 얼마나 잘 하냐가 20년 전에는 굉장히 중요한 기술이었습니다. 비슷한 단어가 얼마나 맞느냐보다, 하여튼 문서 내에서, 예를 들면 '형'이라든지, 아니면 '뭐입니다', '읍니다', '씁니다'와 같은 것들을 제거를 열심히 기계가 해 줘서, 핵심 단어들만 뽑아내는 거죠. 왜 그런 일을 하냐면, 그때까지는 우리가 상상할 수 있는 게 책을 보면 그 책에 뭐가 있지, 그러면 맨 뒤에 가면 인덱스가 있습니다. 그러면 이 단어가 쫙 있죠. 그럼 그 단어를 보면 이건 15페이지 있고, 이건 35페이지 있고, 이건 75페이지 있다고 하면, 그쪽에 가면 그 단어가 들어 있는 정보가 있잖아요. 그걸 똑같이 컴퓨터로 구현하자 했었던 거거든요.. 검색이라는 게 그러니까 많은 문서와 정보를 일단 모아야 되고, 그게 문서라면 도대체 100만 페이지 중에서 몇 번째 페이지에 이 단어가 있는가 하는 것들을 찾아내야 되는 거죠. 그러니까 단어를 단어를 뽑아내는 걸 해요. 그걸 우리가 단어 추출을 한다고 보면 되는데, 저희 쪽 분야에서는 형태소 분석이나 개체명 인식이나 이런 말을 썼어요. 그런데 그러고 나면 이제 색인을 하는 거예요. 색인은 책 뒤에다가 단어가 있고, 단어가 몇 페이지에 들어가 있다. 그리고 맨 마지막이 검색입니다. 검색은 그러면 사용자가 그 단어를 넣어요. '언더스탠딩'이라고, 그러면 책 뒤에 보면 '언더스탠딩'이 15페이지, 35페이지, 70페이지 있으면, 그네 가지 페이지를 가서 보면 있는 거죠. 그걸 1번, 2번, 3번에서 문서를 보여주고, 저는 클릭을 하면 그 페이지로 이동해서 그걸 읽어볼 수가 있는 거죠. 이게 이제 검색 기술인 거예요. 그런데 더 좋은. 검색은 뭐고, 더 나쁜 검색은 뭐죠? 더 좋은 검색은 내가 찾는 바로 그걸 알려주는 게 좋은 검색. 나와 관련 있는 걸 위에다 올려주는 게 좋은 검색이죠. 그렇지? 바보처럼 내가 안 찾는 건데, 관련 키워드가 있다고 해서 갖고 오면 좀 나쁜 검색이죠. 그렇죠? 지금은 우리는 모두 다 아는데, 20년 전만 해도 이게 굉장히 어려운 공학적, 과학적 문제였어요. 그렇죠, 그렇죠. 뭐가 중요한 걸까? 도대체 얘가 찾는 게 뭘까? 그렇죠. 그리고 더 중요하다는 걸 우리가 어떻게 평가할 수 있을까? 예를 들면, 대표님께서 우리 직원분들 보고 '야, 이거 좀 알아봐' 하는데, 네다섯 명이 각자가 연구해서 알아봤으면, 딱 대표님 마음에 드는 게 있는지 있죠. 그거를 어떻게 평가하냐는 거예요. 기계가 마음을 알아야죠. 마음. 그렇죠? 내가 원하는 게 뭔지 알아야 되고, 그리고 대표님이 말을 그래도 좀 구체적으로 해 줘야 돼. 그렇죠? 그것도 되게 중요하죠. 그래서 20년 전에도 도대체 검색 사용자인 네이버 사용자나 구글 사용자가 원하는 게 뭘까를 어떻게 알아내서 더 정확한 정보를 많이 갖다 줄 수 있을까를 연구했어요.. 한마디로, 더 빠르게, 더 정확하게, 더 중요한 정보를 더 많이 갖다 주면 되는 거죠. 그렇죠? 근데 희한하게도 정보 공학에서 보면요, 더 정확하게 정보를 찾으려면 정보를 찾은 정보 양이 줄어요. 더 많은 정보를 찾고 싶으면 정보의 정확도가 떨어져 버려요. 아, 아 예. 양자역학에 보면, 어떤 원자, 전자나 이런 것들이 어떤 속도로 있는지를 알고 싶으면 위치를 모르고, 위치를 알고 싶으면 속도를 몰라요. 이걸 우리는 불확정성의 원리라고 그러거든요. 정보에도 똑같은 문제가 있는 거예요. 많은 정보를 찾아주고 싶으면 정보 정확도가 떨어진다는 거죠. 떨어지고 중요한 걸 찾아줘 그러면 그렇지. 예, 정보를 빠지는 게 생기는 거예요.

 

6. ️🔥검색 및 정보 제공의 복잡성과 개선 필요성00:18:19

  • 20년 전, 정보 제공의 효율성을 높이기 위해 구글이 등장했으며, 이는 링크를 통해 중요성을 판단하는 방법을 기반으로 한다.
  • 구글은 사용자가 원하는 정보를 신속하게 찾도록 도와주지만, 여전히 클릭을 여러 번 해야 하는 불편함이 있다.
  • 또한 사용자는 검색 결과를 모두 읽어봐야 하므로 시간과 노력이 소모되며, 여러 표현이 동일한 의미를 가질 수 있다는 문제가 있다.
  • 결과적으로 검색의 정확성을 높이기 위해 가능한 다양한 표현을 모두 고려해야 하며, 이것이 검색의 복잡성을 더욱 증가시킨다.
원문 스크립트 보기
어제 우 배웠잖아, 그 불 난 거가 그 센서 화재 감지기를 예민하게 만들면 하루에도 열 대 번 올리고, 대충 만들어 놓으면 잘 안 울리고, 그래서 이게 공학자들이 굉장히 고민했던 문제예요. 20년 전에는, 그러면 어떻게 많은 정보를 누락 없이, 중요한 정보를 같이 제공할 수 있을까? 그래서 그 노력을 많이 했는데, 거기서 히트친 곳이 바로 구글인 거예요. 예, 그래서 구글의 공동 창업인 레리 페이지가 자기 박사 논문으로 쓴 걸 갖고 구글을 창업했는데, 그게 이런 거죠. 우리가 예를 들면 워크샵이나 회사에서 뭘 하다 보면 우리 중에서 설거지할 사람을 손가락으로 가리키기, 그러면 동시에 손가락 이렇게 눈치를 보다가 가리킵니다. 지금 이제 참조 화면에 나와 있는데, 그러면 인터넷에 보면 하이퍼링크라는 걸로 해서 클릭하면 어디로 이동하잖아요? 링크가, 그렇죠? 그럼 링크를 많이 받는 애는 더 중요한 애라는 거예요. 예, 그렇지. 왜냐하면 많은 사람이 날 가리키고 있으니까. 특히 주제별로, 예를 들면 인공지능에 관련돼서 웹에서 가장 많이 가리키고 있는 게 누구냐 하면, 걔는 인공지능에 관한 굉장히 중요한 정보일 거라는 거예요. 논문을 치면 인용 횟수와 같은 거죠. 정말 정확한 표현이에요.. 그래서 인용 횟수와 똑같은 개념인데, 문제는 옛날에 인용 횟수라 해봤자 논문에 10개, 20개밖에 안 되는데, 이게 인터넷 스케일로 커지니까, 지구 스케일로 커지니까 이걸 빨리 계산해야 되는 거예요. 그래서 그 계산 단 결과로 나온 게 바로 아까 말씀하신 랭킹입니다. 거예요. 그래서 구글이 히트를 친 건 전 세계에서, 어, 네가 잘생겼어, 네가 잘생겼어, 라고 이야기를 해서, 그럼 전 세계에서 제일 잘생긴 사람이 누구냐를 찾아내는 걸 굉장히 고속으로 계산을 하는 거예요. 약간 기술적으로 얘기하면 히든 마르코프 모델이라는 건데, 사실 이걸 발명한 사람은 러시아 사람이에요. 예, 그런데 이걸 들어다가 이제 구글의 창업자들이 검색에 적용을 한 거죠. 그러니까 많은 정보를 주는데, 대신 나는 내가 보기에 중요한 거부터 1등부터 나열해 줄게. 그러니까 당신은 1등부터 보면 돼라는 걸로서 히트를 친 거죠. 네, 그게 이제 구글이 20년 전에, 길게는 23년 전에 만들어서 지금까지 왔다고 보시면 될 것 같아요. 그런데 이 구글을 포함한 검색이 문제점이 많은 거예요. 가장 큰 불편함은 어떤 게 있으세요? 다 들어가 봐야 된다, 클릭 클릭 다 해 봐야 되고, 예, 너무 하나 그렇죠. 열 개만 읽어도 짜증이 나죠. 예, 그리고 내가 원하는 게 맨 위에 있지도 않아. 그렇죠? 그렇지도 않아요. 또 들어가는 게 클릭해서 보는 것도 귀찮은데, 문제는 그 안에 내가 답을 보려면 내가 일단 읽어봐야 돼요. 다 읽어봐야 돼요. 그게 더 차나요. 특히 저하고, 뭐, 저희 직원 중에서 친한 임원분하고 가끔 싸우는 게 저 스타일인데, 저는 대충 보고, 대충 필요하면 예를 들면 특히 어디 워크샵 가는 장소 그러면 결정하는데, 그분은 댓글이 뭐니를 다 읽어봐야 돼요. 식당 가는 것도 성격이 예, 그 아, 전 속이 터질 것 같아요. 그 댓글, 식당 댓글로 다 읽어보고 비교하고, 네, 그러잖아요. 보통 여행 가려고 해도요. 여기다 또 다른 문제는 제가 실제로 오늘 언더스탠딩 검색을 해 봤어요. 네이버나 구글에서 예. 언더스탠딩이 우리 언더스탠딩, 다 유명한 옷 브랜드가 있나 봐요.. 옷 브랜드가 하나 있어요, 언더스탠딩이라는 옷이 있습니다. 그래서 인수하려고 얼마나 고민했는지 몰라요. 그래서 화면에 보시면 첫 화면은 언더스탠딩 여성복이 있어요. 여성복 언더스탠딩이 있습니다. 그래서 저기 지금 화면에 보시면 맨 위에는 언더스탠딩 뜻이 나오고, 그 밑에는 다 온 얘기예요. 그리고 언더스탠딩 그 밑으로 쭉 내려오면서 한참 밑에 있어요. 이런 걸 우리가 동형 이여라 그래요. 똑같이 언더스탠딩의 뜻이다는 거. 우리 제일 유명한 건 먹는 배, 타는 배 이런 것들이죠. 그러니까 검색할 때마다 다른 뜻이 나오는 거죠. 그런데 또 다른 문제는 뭐냐면 이형 동의어예요. 예를 들자면 우리가 얘기할 때 표현할 때, '편히 주무셨어요?'라고도 얘기했지만 아침에 하면, '오늘 아침 좋네요.' 뭐 '굿모닝'이 다 똑같은 뜻이거든요. 그런데 표현은 다르잖아요. 그러니까 검색을 할 때 더 정확하게 검색하려면 가능한 표현들을 모두 넣어야 되는 거예요. 그렇지 않으면, 어쨌든 우리는 색인에는 키워드로 들어가기 때문에 그 키워드가 똑같은 자동 예를 들면, 키워드가 자동차든 카든, 전동차든 뭐든지간에, 또는 쏘나타든 다 자동차. 이게 검색이 안 되는 거죠. 이런 문제도 있는 거죠.

 

7. 정보 검색의 문제와 AI의 해결 방안00:22:48

  • 정보를 찾기 위해 하와이에 대해 여러 가지를 알아야 하지만, 각각의 정보를 따로 검색하면 파편화된 데이터를 조합하는 것이 어렵다.
  • 정보의 양이 증가하면서 검색이 점점 더 힘들어지기 때문에, AI 검색은 이 문제를 해결하는 데 도움을 준다.
  • AI는 여러 가지 수학적 방식을 통해 학습하고 정보를 생성하는데, 미분을 통해 성능을 평가하고, 확률 통계를 사용하여 결과를 생성한다.
  • 벡터를 통한 공간의 방향과 거리를 이해하는 것이 AI의 정보를 처리하는 방법 중 하나이며, 이는 우리가 과거에 배운 개념과 연결된다.
원문 스크립트 보기
더 큰 문제는 이거예요. 예를 들면 제가 하와이로 여행을 가야겠다고 하면, 하와이 밥집도 알아봐야 되죠. 그렇죠? 그리고 또 하와이 여행지도 알아야 되죠. 비행기 표가 어디가 싼지 알아야 되죠. 등등등 잘 것도 찾아야 되고, 다 찾아야 되잖아요. 그 각각을 검색을 다 따로 한다면, 내가 일일이 다 읽어보고 그 파편화된 거를 경로에 맞추려면. 머릿속에서 조합을 해야 돼요. 그렇죠? 예, 1일 날은 이 지역이 했으니까, 이 지역의 맛집에 뭘 찾아야 되고, 2일 날은 뭘 해야 돼요? 그 얘기 정보 검색은 각 문서별로 다 검색된 게 파편화돼 있잖아요. 음, 저는 이렇게 표현해요. 숲이 있는 정보의 숲이 딱 있는 게 아니라 생태계가 있는 게 아니라, 나무로 다 벌목을 한 거예요.. 음, 벌목을 한 거를 인이라는 개념으로 다 싸 놓으면, 제가 단어를 하면 그중에 나무를 찾아서 저한테 주는데, 실제로 그걸 제가 짜맞추는 작업을 해야 되는 거죠. 다 보고, 음, 그니까 이 문제가 정보 양이 증가되는 점점 더 힘들어지는 거죠. 그래서 AI 검색은요, 문제를 해결한다고 보시면 돼요. 어, 그래요. 어떻게 해결합니까? AI, 그래서 이 AI가 어떻게 해결하냐 보려면, 기억은 안 나시겠지만, 저희가 1년 반 전에 처음으로 제가 저희가 여기를 생성 AI로, 그 채 7pt 성지로 한번 만들어 보시죠 할 때 얘기했던 게 있어요. 오래서 기억나실 텐데, 현재 생성 인공지능은 세 가지 혹은 네 가지 수학적 방식으로 공부를 하고, 생각을 하고, 말을 하거든요. 그때 말씀을 드렸어요. 근데 얘가 머리가 나빠서 자꾸 까먹는데, 그걸 어떻게 인공지 까먹냐, 뭐 그런 말씀을 하셨었는데, 두 분이 아마 대학 다닐 때 제일 싫어했었던 과목이었던 것 같아요. 음, 첫 번째 공부를 할 때는 미분을 해요. 미분, 음, 내가 자, 공부를 잘했나 못 했냐 하는 거를 그레디언트를 푼다는데, 그냥 미분하다 보시면 돼요. 네, 예, 그렇게 해서 내가 공부를 잘했나 못 했나 하고 반복 학습을 해요. 음, 그거를 대규모로 엔비디아의 GPU를 돌리려면, 음, 분산 병렬 처리를 할 수 있어야 되는데, 그게 유리한 게 행렬이기 때문에 예. 행렬로 바꿔요. 음, 그래서 미분 행렬 다 싫어하셨을 것 같아요. 네, 그리고 나서 그거에 해당되는 걸로 답을 생성하거나 그림을 만들어 내려면 주사위를 던져서 확률 통계적으로 문장을 생성해요. 으흠, 네, 우리가 고등학교 2학년과 3학년 때 제일 싫어했던 과목들이죠, 확률과 통계. 확률, 통계까지 행하고, 확률 통계 주로 수포에 빠지게 되는 이유는 이 세 가지 때문이에요. 흠, 네. 그런데 이걸 관통하는 게 하나가 더 있어요. 예, 혹시 시 벡터 공부하셨던 건 기억나세요? 벡터. 네, 여긴 안 했을 거고 저는 했을 겁니다. 네, 이름은 많이 들었습니다.. 벡터라는 이름, 들어보셨죠? 벡터가 뭐냐고 물어보면 혹시 기억하세요? 괜찮아요, 솔직하게. 벡터는 어떤 공간에서 좌표, 방향, 그리고 거리를 가지고 있는 거예요. 한 공간에서 그렇죠? 어떤 공간에서 좌표와 그다음에 방향과 거리를 가지고 있는 걸 우리는 벡터라고 해요. 예, 그 그림을 보지 않는데 지금 그걸 보면, 예를 들어 맨 왼쪽에 남자와 여자 벡터를 보면 3차원 공간에서 XYZ가 있는데, 남자 좌표가 있고 여자 좌표가 있어요. 네, 그럼 남자 좌표에서 여자 좌표까지 가는 방향과 거리를 우리는 벡터라고 부르는 거죠. 그렇죠? 네, 아 기억나시죠? 예, 중고등학교 때 배운 거니까. 그런데 만약에 우리가 저 공간에서 남자에서 여자로 가는 벡터를 더하면 여왕이 나오는 게 상식적이지 않으세요? 남자 대 여자, 그러면 왕 대 X. 그죠? 그 X에 해당하는 건 여왕이죠. 그렇죠? 그러니까 그 벡터가 남자에서 여자로 가는 방향으로 있는 방향과 그 거리만큼 가면, 왕의 대응이 되는 단어인 여왕이 공간에 있으면 좋은 거죠. 예, 그다음에 동사 시제를 보면 걷고 있다 해서 저쪽 방향으로 저 거리만큼 가면, 걸었다는 과거형이 됩니다.

 

8. ️언어를 벡터로 변환하는 가능성에 대한 논의00:27:00

  • 인간 언어를 벡터로 변환하면 언어의 의미적 관계를 이해할 수 있다.
  • 이러한 아이디어는 9년 전 구글의 천재에 의해 제안되어 실험이 시작되었다.
  • 단어뿐만 아니라 문장과 문서 간 유사성도 벡터로 표현되어 모여질 수 있다.
  • 과거의 검색 엔진은 키워드를 기반으로 했으나, AI 시대에서는 인공지능이 문서를 읽고 벡터로 변환하여 정보를 제공합니다.
  • 따라서 우리는 3차원에서 벡터로 재구성된 정보를 확인할 수 있다.
원문 스크립트 보기
있었어요. 네, 그러면 그 벡터를 수영하고 있다가 에다 더하면 수영했다 나오면 훌륭하죠. 과거형으로 맞아요. 그렇고, 저기 보면 앙카라에서, 뭐 터키, 스페인에서 아, 뭐 마드리드, 이탈리아, 로마, 독일, 베를린이 있어요. 한국은, 뭐 서울서 서울이죠. 그렇죠? 그럼 뭘까요? 그러면 수도 서울과 국가와 수도예요. 그러니까 예를 들면, 터키에서 앙카라로 가는 방향과 거리만큼 가면 카라가 있다. 그 벡터를 한국에다 그 벡터를 더하면 서울이 그 단어가 나오도록 한다면, 그러면 모든 인간의 언어를 벡터로 만들 수 있지 않을까요? 어, 그렇겠네요. 그거를 정확하게 9년 전에 그 전에는 이 아이디어 자체가 없었는데, 구글에 어떤 천재 같은 애가 야, 인간 언어는 모두 벡터로 바꿀 수 있겠는데? 아, 라고 해서 실험을 해보게 돼요. 그래서 우리 책 뒤에 보면 색인인데, 색인은 단어로 나열돼 있잖아요.. 음, 근데 그 단어로 나열되는 게 아니라, 단어를 벡터로 바꾸고 그 벡터로 나열하게 보면 어떻게 될까? 음, 라고 생각을 한 거죠. 그러면 의미적 관계가 유사한 것끼리 모여 있게 돼요. 묶이게 되죠. 묶게 되는 거예요. 예, 근데 그게 단어뿐만 아니라 문장도 유사한 단 문장은 비슷한데 묶여 있게 되고요. 예, 음 문서도 비슷한 문서들은 비슷한데 묶여 있게 되죠. 그래서 생성할 수 있게 되는 거잖아요. 다음 말을, 그 다음 말을 생성하는데, 그거는 또 다른 기술이에요. 아, 그 다른 기술. 예, 그건 그 다음 단어가 어떤 단어가 나오는 게 확률 통계적으로 좋은가 하는 그 문맥을 또 이해하는 기술은 그 생성 AI와 다른 거고요. 제가 말씀드린 거는 인간의 언어 자체와 지식 자체를 수학적으로 벡터로 이렇게 다 표현해내는 것이 수학적으로 가능하다라는 것입니다. 깨달은 거예요. 그래서 옛날에 검색 엔진은 키워드로 했잖아요. 그러면 문서가 있으면 문서를 키워드로 다 쪼개고, 그 키워드를 색인 파일이라는 거, 책 뒤에다가 몇 페이지에 들어 있어 하고, 그럼 내가 일한 키워드를 하면 그 키워드가 있는 문서를 찾아서 나한테 주고, 그럼 저는 어떻게 해야 돼요? 그 문서를 열어서 일일이 읽어봐야 되는 거죠. 그러면 그거를 AI 시대는 어떻게 바뀌었냐? 문서가 있고 정보가 있잖아요. 그 문서 정보 모으는 건 같아요. 근데 그거를 인공지능이 읽고요, 벡터로 다 바꿔요. 인공지능이 벡터로 바꿔요. 벡터로 바꿔요. 근데 우리가 지금 보는 건 3차원 이잖아요.

 

9. ️🔍AI 검색과 벡터 변환의 중요성00:29:21

  • AI 검색 기술은 수천 차원으로 데이터를 벡터로 변환하는 과정을 포함하며, 질문도 벡터로 바꿔 유사한 자료를 찾는다.
  • 예를 들어, '신용 카드를 분실했는데 어떻게 해야 되는가'라는 질문과 '어떤 카드를 잃어버렸어요'라는 문장은 비슷한 벡터로 인식될 수 있다.
  • 문서와 질문을 벡터로 변환하는 기술이 중요하며, 이 과정은 속도와 품질이 모두 중요하다.
  • 현재 기술은 과거보다 빠르게 벡터를 만들어내며, 엔비디아와 같은 기업 덕분에 더욱 발전하고 있다.
  • 대량의 문서를 처리할 때는 문단이나 페이지 단위로 청크화하여 효율적으로 작업할 수 있다.
원문 스크립트 보기
2차원, 3차원까지 우리가 상상을 해요. 근데 보통 지금 AI 검색 쓰는 건 1차원에서 2차원, 2000차원, 우와! 우아하죠. 수학적으로는 가도 잘 안 되지만, 아무튼 예, 수학적으로는 반복만 많이 하면 차원 수를 늘려갈 수 있어요. 4000, 5000, 10000차원까지. 그러면 AI 문서를 수집해서 그걸 벡터로 바꿔 놓게 돼요. 예, 그럼 벡터로 바꾼 걸 벡터로 세인을 해요. 네, 그럼 사용자가 질문을 할 거 아니에요? 단어 하나가 아니잖아요, 이제는. 예, 그 질문을 벡터로 바꿔요. 질문을 벡터로 바꿔요.. 네, 그럼 내가 수집했던 그 많은 문서를 벡터로 바꾸는 것 중에서 제일 가까이 있는 유사한 벡터가 뭔가를 찾아내는 거예요. 그럼 그 말은 내가 질문을 넣은 키워드로 질문한 게 아니라, 이거는 뭐, 왜 그럴까요? 이렇게 질문을 넣으면 AI가 그 의미를 수학으로 바꿔서 벡터로 바꿔서, 그 벡터 값이랑 제일 비슷한 애들을 가져오는 거예요. 그렇죠? 제일 그 벡터 가까이 있는 걸 가져오는 거예요. 그게 지금도 자료 화면인데, 자료 화면 보시면 이게... 너무 쉬운 수학이 한데, 오래됐으니까 어떤 카드를 잃어버렸어요라고 하는 벡터가 있어요. 문장에 그러면 '신용 카드를 분실했는데 어떻게 해야 되는가'라는 질문이 있어요. 그 두 가지는 백 인공지능이 보기에는 같은 벡터에 유사하게 있다는 거죠. 단어가 그렇게 많이 비슷하진 않지만, 비슷하다라는 거를 학습을 시키고, 비슷하다라는 거를 표현해 내요. 예, 그럼 단어가 아까 같더라도 뜻이 비슷한데, '신용카드를 분실했을 때 어떻게 해야 되냐'라는 질문에 대한 답을 가지고 있는 벡터에 변환된 문서를 찾아서 비슷하게 저한테 주게 되는 거죠. 문제는 그럼 저 질문이나 문장을 벡터로 바꾸는 게 더 어렵고 중요하겠네요. 둘 다가 중요한데요, 그거를 더 잘 바꾸는 게 중요하고요, AI 검색 기술에서는. 그리고 두 번째는 그걸 얼마나 빨리 하느냐도 중요한 거죠. 두 개가 다 중요해요. 왜냐하면 정보의 전세수가 아니잖아요? 수조인 그 조개를 벡터로 바꾸려고 하면 얼마나 얘가 연을 해야겠어요. 그것도 1, 2차원이 아니고 천천히 2차원 원이니까. 그러니까 굉장히 빠르고 저렴하면서도 굉장히 품질 높은 벡터로 바꿔내는 기술이 필요한 거죠. 질문 있습니다. 그 질문은 벡터로 바로 바꿀 수 있을 것 같아요. 질문이 또 엄청 길지 않으니까.. 근데 그거를 비슷한 벡터로 매칭시켜야 되는 건데, 검색은 예를 들면 ChatGPT, 우리 배웠을 때 막 3년 전 데이터, 옛날 거를 오래 학습시켜 가지고 얘가 똘똘해지니까 그중에 옛날에 네가 머릿속에 있는 거랑 얘랑 비슷한 걸 찾아와 하면 찾을 수 있을 것 같은데, 검색은 오늘, 오늘 한 시간 전에 나온 뉴스를 검색할 수 있어야 되잖아요. 그러니까 그럼 그거를 다 벡터로 만들어서 그거를 매칭시키는 거죠. 매칭을 시키는데, 그래서 검색으로 밖으로 시간이 걸리는데, 그 안이 카 터로 바꾸는 시간이 걸리는데, 그 시간이 옛날에는 되게 오래 걸렸는데, 지금 기술은 점점 더 빨라지고 있어요. 그것도 누구의 덕분이에요? 엔비디아 덕분이에요. 어 비디오 GPU, 그거를 훨씬 더 빠르게 만들도록 해요. 예를 들면 저희 회사도 똑같은 걸 쓰는데, 저희 회사의 오픈 API에 비하면 대략 한 15배 정도 빠르거든요. 그 빠르게 하는 알고리즘을 만드는 것도 굉장히 쉽지는 않은데, 그게 비디오 없으면 돌지 않는 거예요. 아 그러니까 이런 생태계가 이제 만들어져 가고 있는데, 굉장히 역시 대표님은 통찰력이 있으신데, 아, 저 통찰력이 있는 질문이 있으신데, 아까 그러셨잖아요. 나는 질문이니 이건 벡터를 바꿀 수 있을 것 같은데, 문서가 100페이지 리 문서 예언자예요. 그래서 전체를 바꾸지 않고 잘라요. 잘라요. 문단 단위로 자르기도 하고, 페이지 단위로 자르기도 해요. 그래서 문단이나 페이지 정도로 자른 걸 우리는 청크라고 표현해요. 덩어리라고요.

 

10. ️💡벡터 인덱싱과 AI 검색의 혁신00:33:25

  • 덩어리로 변환된 데이터를 벡터로 변경하여 색인에 추가하면, 효율적으로 검색할 수 있다.
  • 예를 들어, 요리책의 각 페이지를 벡터로 나누면, 특정 요리법을 빠르게 찾을 수 있다.
  • 이제 AI 검색은 페이지를 직접 찢어서 적절한 정보를 모아오는 형태로 발전하였다.
  • ChatGPT의 문제인 '할루시네이션'을 벡터 인덱싱을 통해 해결하려는 시도도 이루어지고 있으며, 이는 정확도를 높인다.
  • AI의 학습 비용이 많이 드는 문제도 해결하여, 오픈북 방식으로 비용을 절감할 수 있다.
원문 스크립트 보기
그 덩어리로 바꾼 걸 벡터로 바꿔서 색인에 집어넣어요. 그러면 빨리 할 수 있습니까? 큰 거를 덩어리로 하니까 빨리 하는 것도 있지만, 우리 책한 건도 앞과 뒤가 주제가 다르잖아요. 예, 그리고 예를 들자면 요리 책을 하면, 페이지마다 음식이 다 다르잖아요. 그럼 그 책 한 권 전체를 벡터로 바꾸면 두리뭉실한 벡터가 나오죠, '요리'라는. 근데 페이지별로 자르면 김치찌개 벡터가 나오는 거고, 참치찌개 벡터가 나오는 거죠.. 각 콘텐츠는 그 사용자가 '김치찌개 요리법 좀 알려 줘'라고 했을 때, 문서 전체를 하면 '어, 안에 어딘가 있을 텐데' 하면, 100페이지 책을 AI에게 던져 주면 AI가. 다 읽어 봐야 되잖아요. 근데, 김치 측에 딱 한 페이지만 잘라 가지고선 백터리 인덱싱을 했으면 그걸 딱 찾을 거 아니에요. 그러면 AI가 오픈북 시험을 볼 때 한 페이지만 툭 던져 주면 되는 거잖아요. 아, 아 이제 뭔가 깨달았어요. 과거의 검색은 도서관 안에다가 그 녀석을 심부름시키면서 '내가 궁금한 여기에 대해서 적절한 책을 골라와'라고 하는 게 과거의 검색이었는데, 지금 인공지능 검색은 페이지를 찢어서 오는 거야. 페이지를 찢어서 적절한 거를 네가 분책해도 되니까, 적절한 페이지들을 다 묶어서 갖고 와라는 얘기를 시키는 거랑 비슷하네요. 그렇죠? 그런데, 이제 이게 갑자기 왜 폭발력이 생기냐, 그건 ChatGPT의 골치 아픈 문제를 얘가 해결해 주기 시작했기 때문이에요. 첫 번째, 제일 골치 아픈 문제 기억나세요? 그 우리 뭐 할루시네이션, 이상한 대답하는 거 가끔 나오잖아요. 우리 마약 하거나 본드 같은 거 하면 이렇게 환각 현상이 생기잖아요. 그걸 우리는 할루시네이션이라고 하는데, 환각 현상이 생기는 이유도 벡터 문제와 확률 통계 문제도 있는데, 그건 제가 자세히 안 들어갈게요. 근데, 얘가 환각 현상 때문에 거짓말을 하잖아요. 근데 그거를 골라낼 수가 없어. 그거를 골라내는 일을 얘가 도와주는 거예요. 왜 그러냐면, 제가 밤새 공부를 했어요. 그래서 엄청나게 공부를 했는데 막 헷갈리기 시작해요. 이게 이것들인가 저것들인가 하면 답을 쓸때 '아, 이게 이거든 저거든가' 헷갈려요. 아, 차라리 오픈북은 정확하나, 근데 내가 공부를 좀 어느 정도 했는데 오픈북을 보면 이제 깔끔해지는 거죠. 그러네, 그러네. 그래서 거짓말을 하는 게 확 줄어드는 거예요. 거기에다가 심지어는 거짓말을 쓰다가도 오픈북이면 열어보고, 아 이거 틀렸네 하고 지우고 다시 쓰는 거죠. 예, 책을 볼 수 있으니까요. 그래서 환각 현성이 급격하게 줄어요.. 아이야, 드던 그 그냥 챗GPT 자체도 요걸 도입하면 요걸, 그렇죠? 그래서 그걸 제가 조금 있다가 보여 드릴 거예요. 그다음에 두 번째는요, 예, 챗GPT 한 번 학습하는데 돈이 많이 든다는 거 아시잖아요. 이제 예, 왜냐면 실제로 엔비디아 H100 같은 걸 몇 장을 쓰냐면, 2만 장씩을 돌려야 돼요. 그거 한 장에 4천만 원, 5천만 원 짜리 그래요. 2만 장을 돌려, 2만이야, 1조 원 써야 돼, 1조 원. 예, 못 해요. 한국에선 그 GPT-4라는 거하고 비슷한 거하고, 요번에 5 나오는 것도 음, 그런데 아까 그랬잖아요. 그렇게 공부시킨 애보다 설렁설렁해서 했는데 오픈북 하니까 얘가 비슷해. 점수가 그래도 걔가 조금 잘해요, 98점. 근데 오픈북 해놓으니까 얘는 한 95점 하는 거예요. 근데 얘는 공부 거의 안 했거든요. 음, 네, 그러니까 날로 먹는 거죠. 엄청 비용이 적게 들다. 그렇죠, 비용이 적게 드는 거예요. 그래서 이거를 뇌의 크기로 하는데, 지금 GPT-4 같은 경우는 대략 200 빌리언 정도 돼요. 예, 그러니까 2천조. 아, 2천 어인. 아, 그러니까 제가 헷갈리네요. 예, 10억, 100억, 1천억. 예, 2천억 개 정도의 파라미터를 사용하거든요.

 

11. AI와 오픈북 학습의 경제적 이점00:37:19

  • 일정 수준의 공부를 한 학생과 적게 공부한 학생 사이에는 큰 차이가 없으며, 덕분에 비용이 절감된다.
  • AI를 사용하는 시스템은 비싸기 때문에 삼성전자의 내부 정보 검색에 대한 접근을 저렴하게 만들어 문제를 해결할 수 있다.
  • 일련의 정보를 활용하는 오픈북 학습 방식은 더 많은 이점을 가져오고 불필요한 비용을 줄이는 데 기여한다.
  • RAG 기술은 검색을 통해 학습한 내용을 보완하고, 학생들에게 점수를 높일 수 있는 기회를 제공한다.
원문 스크립트 보기
예, 그런데 그렇게 하는 애가 하는 거랑 그거에 1분 밖에 안 된 애가 공부를 10분 밖에 안 한 애가, 조그만 뇌를 가지고 있는 애가 답을 내는 게 큰 차이를 안 내는 거예요. 야, 그러니까 비용이 확 떨어지겠죠. 공부 덜 해도 되니까. 그리고 심지어는 공부 덜 한 애가 전기도 덜 먹어요. 그렇죠, 돌리는 뇌가 작으니까. 그러니까 경제성이 달성이 되는 건데 여기에 중요한 게 하나가 더 있어요. 예음, 뭐냐면 너무 비싸니까, 얘는 공부하는 걸 한 번 공부하는 거를 1년 동안 우려먹어요. 한 번 공부한 거를 음, 공부하는 게 하지만, 실제로 오픈 북인데 갑자기 '오픈 북' 하다 '미안한데 얘들아'라고 얘기를 하면서 최신 이론이 나왔는데 내가 참고한 건 던져줄 테니까, '어, 이거 찾아서 이 책도 참조해'라고 하는 게 가능하게 되는 거예요.. 그러네, 그러네, 그러네, 그러니까 내가 외웠던 걸 하면, 내가 진짜 엄청 열심히 한 걸 갖고 1년 내내 울어먹는데, 조금 공부한 애한테 '아, 이거 최신 책 세 판 나왔는데 이거 갖고 오픈 북 해' 그러면 얘는 대충 알면 오픈 북을 열어서 하는데 차이가 별로 안 나는 거죠. 음, 그러니까 오늘 한 시간 전에 나왔던 최신 정보로도 답을 하게 돼요. 야, 그러니까 얘가 가지고 있는 문제를 또 해결을 하는 거죠. 예, 그리고 또 다른 문제가 있어요. 예를 들면, 삼성전자 반도체 부문에 있는 모든 지식들은 어디에 있을까요? 음, 구글에 있나요? 네이버에 있나요? 삼성, 삼성전자 연구원들 머릿속에 있죠. 아니면 머릿속에 있는 걸 삼성 도서관에 있던 거. 그렇죠. 컴퓨터 안에 보면 무슨 지식 관리 시스템이 있죠. 이런 거 있을 거 아니에요. 그런데 이거를 몽땅 AI 테 검색을 시키려고 하면 돈이 어마어마하게 드는 거예요. 예, 그러니까 삼성전자도 도입을 못해요, 내부적으로. 음, 너무 비싸니까. 음, 그런데 조금 공부한 애로 싸요. 그 싼 애를 데려다가 '네가 필요하면, 삼성전자 안에 있는 모든 문서를 네가 검색해서 오픈 북으로 네가 질문하면 대답을 해.' 그 안에서만 폐쇄된 환경에서만도 할 수 있어요. 그렇죠? 아, 그렇게 되면 문제 해결이 되면 기업의. 보안 문제가 해결이 되는 거죠. 이제 채치 PT 안 써도 되니까. 그렇죠? 채치 PT는 이걸 학습해서 얘가 어디에다 써먹는지 모르는 건데, 가져가서 그렇기도 하고, 그 채치 PT는 학습을 많이 했으니까 이거하고 똑같아요. 우리 애 공부를 시키는데 유학도 보내고 하버드도 보내고, 뭐 옥스포드도 보낸다고 엄청 과외를 시키고 똑똑하게 만들었어요. 그 애가 돈 잘 벌어야 되잖아요. 예, 그런데 얘는 맨날 설렁설렁 하고, 학원도 안 가고, 오히려 초등학교, 중학교, 고등학교 때 알바까지 해서 생활비를 벌었어요. 근데 얘가 갑자기 자기는 대학도 안 가겠대, 사업하겠다 그런 사람들이 몇 명 있죠. 예, 일런 머스크 같은 사람들, 예, 이런 케이스가 되는 거예요.. 그러니까 공부를 엄청 시키지 않고, 조금만 공부시킨 애가 갑자기 오픈북 공부하고, 아는 재료를 그냥 똑똑하게 해보면서 비슷한 답을 내기 시작하는 거죠. 그리고 기업 내부에서, 바깥이 아니라 보안이 있게 적용하는 게 가능해지는 거죠. 근데 우리가 그 채치 PT는 이거는 검색으로 쓰지 않고 이제 AI를 쓰잖아요. 말을 만든, 말을 알아듣고 말을 하는 그런 걸로 주로 쓰잖아요. 그러니까 채치 PT가 우리가 우와 했던 건 진짜 사람처럼 말도 잘하고, 뭘 물어봐도 잘 대답하니까요. 그래서 그거를 지금 말씀을 좀 드릴 건데요. 그래서 그 기술이 RAG라는 기술이에요. 네, 좀 어려워요. 그래서 RAG, 예. 그런데 뭐, 또 2, 3년 지나면 지금 L&M 대부분 웬만한 사람 많이 알잖아요. 예, 채치 PT 다 알고요. RAG 아는 사람이 많을지 모르겠어요. 원래는 집 짓는 기술인데 RAG, RAG는 Augmented Generation이래요. 그냥 우리 말로 하면 검색 증강 생성이라고 해요. 생성하는 걸 대고, 그러니까 검색을 통해서 증강시켜서 생성해 와라. 증강은 뭘까요? 증강, 증강이 너 공부한 것만 빼고, 공부한 것만 갖지 말고 오픈북으로 해 줄테니까, 검색해서 네 뇌를 증강시켜서 답을 줘 봐. 이렇게 되는 거죠. 그 답이 정확할뿐만 아니라, 그러니까 시험을 보면 더 점수가 높게 나오기 시작하는 거예요. 그러니까 천재 같은 애한테 너 한 달 동안 내내 공부해라고 해가지고, 옆에 이제 오픈북이 아니라 외워서 시험 보게 하고, 저는 보통 사람한테 야, 너는 살짝 오픈북으로 해도 돼, 괜찮아. 하니까 오히려 점수가 제가 더 높게 나오는 거예요.

 

12. ️💡RAG 기술과 인공지능의 결합00:41:54

  • RAG 기술은 ChatGPT에 정보 페이지를 제공하여 정확한 답변을 끌어내는 방법입니다.
  • 이를 통해 사용자에게 더 나은 정보 제공이 가능하고, 기존의 검색 한계를 극복할 수 있습니다.
  • 퍼플렉시티는 정보를 수집하고 변환하여, 이를 기반으로 질문에 대한 최적의 답변을 제공하는 인공지능 솔루션으로 빠르게 성장하고 있습니다.
  • 이러한 기술들은 필수적이며, 현재 전 세계적으로 경쟁력 있는 회사들은 이들을 보유하고 있습니다.
  • 퍼플렉시티는 마케팅 성과를 통해 더욱 대중화되고 있으며, 인공지능 발전의 중요한 사례로 자리 잡고 있습니다.
원문 스크립트 보기
저는 98점, 그런데 그 천재는 95점. 음, 이렇게 나오는 거죠. 음, 예. 그렇게 하는 기술을 RAG 기술이라고 그래요. 그럼 RAG 기술이 뭐냐, 설명을 드려야 될 텐데요. 지금 뭐 참고하면 어려워요. 그냥 저것도 보시고, 다르게 보시면 되는데 제 얘기를. 그럼 어떻게 하냐면, ChatGPT한테 검색하는 것까지 아까 벡터로 검색하는 건 이해하셨나요? 검색해서 페이지까지 찾죠. 이게 정답 후보가 있는 페이지예요.. 그리고 나서 그 페이지를 던져 줄 때요, 우리는 여태까지 질문만 ChatGPT한테 던져 줬잖아요. 음, 그러면 내가 외웠던 걸 답을 하잖아요. 그런데 ChatGPT한테 질문을 던지면서 동시에 이 안에 답이 있을 거예요. 그래서 종이를 답이 쓸 만한 다섯 장만 찾아서 던져 주는 거예요. 그리고 너 공부했던 것 외에 이것도 참조해 해라고 하는 게 바로 RAG 기술이에요. 야, 야 훨씬 도움이 되겠다. 그럼 ChatGPT보다 이게 지금은 모든 게 좋은데요. 그러니까 비용 효과적이죠. 뇌도 작으니까 밥도 많이 안 먹어. 근데 최신 정보도 바로바로 가져와. 그렇죠, 그렇죠. 뭐 검색을 대체할 수도 있어, 그러면 무조건 좋은 거 같은데요. 그러니까요. 그래서 현재 그 두 가지 문제, 검색의 한계와 생성 인공지능인 챗GPT를 결합을 시켰더니, 예를 들면 이런 경우 있잖아요. 우리가 남녀가 연애하고 결혼을 하는데, 아이 친구는 이래서 부족하고 저 친구는 저래서 부족. 막상 연애를 하니까 둘이 굉장히 시너지를 내서, 화합처럼 두 분이 가지고 있는 점을 취하고, 각자가 가지고 있는 단점은 없어지면서 장점이 부각되는 거예요. 그래서 그거를 처음으로 시도한 데가 상용화를 한 데가 유컴이에요. 유컴 네, 아까 처음 말씀하셨던 페이즈인데, 놀랍게도 뒤늦게 이걸 보고 있었던 퍼플렉시티가, '어 이거 진짜 돈 되고 되겠는데?' 라고 해서 퍼플렉시티를 등장시킨 거예요. 창업 시기는 비슷한데, 오히려 퍼플렉시티가 유컴보다 더 빠르기도 했거든요. 그런데 퍼플렉시티가 지금 회사 가치가 5조, 6조 이렇게 될 정도로 1년 만에 성장했어요. 그래서 퍼플렉시티는 뭐냐면, 제가 여태까지 말씀드린 정보들을 많이 수집을 하고, 수집한 걸 자르고, 자른 걸 벡터로 변환해서 저장해 놓고, 사용자가 질문하면 그 중에서 벡터로 잘라 놓았던 걸 아까 페이지에서 찍는 걸 찾고, 걔를 챗GPT에다가 질문과 함께 그 페이지를 같이 던져주는 거예요.. 그럼 여기서 제가 잠깐 중요한 질문 하나 드려도 되겠습니까? 그럼 어떻게 이런 질문을 할지 놀라우실 텐데, 그러면 그거는 돈을 투자해서 기본적으로 많은 것을 학습시키는 이런 방식이 요즘에 인공지능 경쟁처럼 그렇게 투자를 하지 않아도, 대강 아주 기본적인 인공지능만 만들어 놓고, 엔드 레퍼런스로 줄 수 있는 문서나 정보를 같이 세트로 주면 답이 나온다는 거라면, 여러 곳에서... 서비스를 시작할 수 있을 건데, 왜냐하면 레퍼런스는 사용자가 주는 거고, 나는 매우 기본형인 인공지능만 있으면 되니까 그렇죠. 근데 거기서 그 차별성이 어디서 나옵니까? 정말 중요한 건데요, 내가 그 점은 생각하고 있었어. 하지, 왜 알하고 있어? 근데 기회가 거기서 기본이라는 게 또 중요해요. 네네, 그러니까 제가 말씀드리는 건 이런 거죠. MIT 천재 박사와 서울대에 굉장히 훌륭한 석사급을 비교했을 때 큰 차이가 안 난다는 거예요. 그렇겠죠? 예, 그런데 고등학생을 넣으면 조금 달라지죠. 그래, 그 결과가 안 나오겠죠. 그러니까 기본이라고 하는 게 우리가 생각하는 것보다 높은 거예요. 그래, 그럴 것 같아요. 그러니까 어디에나 있을 만큼 기본은 아니라는 거예요, 첫 번째 그렇고요. 예, 그다음에 두 번째 해당이 되는 것은 음... 검색 채널이 아니라 그러려면 정보를 많이 가져오는 기술도 필요하죠. 가주는 기술을 잘라서 벡터로, 굉장히 순도가 높은 벡터로 바꾸는 기술도 필요하죠. 그리고 그거를 굉장히 빨리 비교하는 기술도 필요하죠. 그렇지? 그리고 그거를 잘 정리해 갖고 오픈북하는 차치 피트한 던져주는 기술이 필요해요. 예, 이 기술들을 몽땅 가지고 있는 회사가 전 세계에 지금 몇 개가 안 된다는 거예요. 아, 그게 이제 지금 대표 주자가 퍼플렉시티. 퍼플렉시티 외에도 여기 있는 회사들이 다 대표 주자인데, 그런데 퍼플렉시티가 제일 대중화가 되는 굉장히 중요한 성과를 낸 거죠. 그 성과 중에 하나가 바로 마케팅이에요.

 

13. 경쟁력 있는 마케팅의 차별화 요소00:46:41

  • 퍼플렉시티 마케팅을 잘했지만, 질문에 대한 중요한 논의가 필요하다.
  • 첫 번째 경쟁력은 정보의 질에 있으며, A라는 사람이 10년 된 책이나 허접한 책을 던질 수 있지만, 어떤 친구들이 훌륭하게 요약된 자료를 사용할 수 있다는 점이다.
  • 좋은 자료, 또는 족보를 갖고 있는 것이 성과를 높일 수 있으며, 결국 중요한 데이터 소스를 활용하는 능력이 큰 차별화 요소가 된다.
  • 두 번째는 사용자가 얼마나 편리하게 레퍼런스로 참조할 수 있는지에 대한 기술로, 유저 인터페이스가 중요한 역할을 한다.
원문 스크립트 보기
퍼플렉시티 마케팅을 되게 잘했어요. 근데 이제 그럼에도 불구하고 우리 이프로 님이 질문하신 거, 그럼에도 불구하고 중요한 질문이요. 그럼 경쟁력이 뭐냐? 뭐냐? 어, 그 첫 번째 경쟁력에 대한 예를 들면, 이런 거죠. A라는 사람은 책을 제 오픈 북에서 던지는데, 10년 전 책을 던질 수도 있고, 또 우리 책도 똑같은 책인데, 좀 약간, 뭐라고 표현해야 돼지, 좀 부적한 허접한 책을 줄 수도 있고요. 또 어떤 친구들은 굉장히 훌륭하게 요약된, 우리 대학교 다닐 때 보면 요즘도 그런 거 있는데, 족보를 족보 집을 예로 줄 수도 있을 거 아니에요. 그럼 저는 족보 집을 가지고 있으면 훨씬 더 잘할 수도 있잖아요, 그렇죠? 결국은 몰수 집을 하고, 어떤 데이터 소스로부터 더 중요한 데이터를 가져올 능력이 있냐 하는 게 굉장히 큰 차별화가 되는 거죠. 그게 또 한 첫 번째 차별화가 될 수가 있을 것 같고요. 그다음 두 번째, 제가 직접 보여 드리려고 하는데 그것들을 사용자한테 얼마나 편리하게 레퍼런스로 참조할 수 있게끔 하냐는 것도 굉장히 중요한 기술이 돼요. 유저 인터페이스, 아예 원 원 사이트를 보여주는 거, 그렇죠? 그래서 제가 [음악]..

 

반응형

댓글