본문 바로가기
공부하기/경영학과 군사학

소라2 vs Veo3.1 완벽 비교 : 영상 AI 최강자는? (프롬프트 제공)

by 리치캣 2025. 12. 6.
반응형

★★★★★★★
아이디어링 : First Mover. 퍼스트무버의 시대. 원격근무시대. 아이디어 회의 방법론 1편 
https://kmong.com/gig/317273

 

원격근무시대. 아이디어 회의 방법론 1 드립니다. - 크몽

스몰미 전문가의 전자책 서비스를 만나보세요. <p>※서비스 설명</p><p><br></p><p><strong><u>언제까지 회의실에서 ...

kmong.com

바이오닉 금속 슬로우 지그 낚시 루어 싱크, 참치 및 농어용 빠른 싱크, 40g,60g,80g,100g,150g, 200g 크기, 5 개/세트
https://s.click.aliexpress.com/e/_DBYtwkD
출처: https://richcat.tistory.com/304124 [리치캣의 현재 그리고 미래:티스토리]

 

5Pcs/Set Bionic Metal Slow Jig Fishing Lure Sinks Quickly for Tuna and Bass - Available in 40g,60g,80g,100g,150g and 200g Sizes

Smarter Shopping, Better Living! Aliexpress.com

www.aliexpress.com

 

 

일단은 광고업계가 AI 영상을 열심히 사용할 것이다.

그런데.... 광고분야도 가짜영상과의 전쟁이 발생할 것이라고 예상해본다. 

 

소라2 vs Veo3.1 완벽 비교 : 영상 AI 최강자는? (프롬프트 제공)

📌 영상 AI 최강자는 소라 2와 비오 3.1 중 어느 모델인가?

소라 2는 영상 컨트롤 및 프롬프트 이해도가 뛰어나 쇼츠 등 SNS 콘텐츠에 적합하며, 비오 3.1은 시네마틱 퀄리티와 인물/제품 일관성 유지가 좋아 상세 페이지 제품 영상에 더 적합합니다.

 

💡 각 모델의 주요 단점은 무엇인가?

  • 소라 2: 워터마크가 필수이며 실사 인물 이미지를 인풋으로 넣을 수 없습니다.

  • 비오 3.1: 프롬프트 이해도가 소라 2보다 낮습니다

 

 

오픈AI의 소라2와 구글의 Veo 3.1이라는 최신 영상 AI 모델들의 실전 비교 분석을 통해, 어떤 상황에서 어떤 모델이 더 유리한지 명확한 인사이트를 얻을 수 있습니다. 이 콘텐츠는 단순한 스펙 나열을 넘어, 물리 현상 구현, 사운드 디테일, 그리고 가장 중요한 영상 컨트롤 능력을 실제 프롬프트 예시와 함께 비교하며, 실용적인 적용 시나리오를 제시합니다. AI 영상 제작의 현재 최고 수준을 확인하고, 여러분의 프로젝트에 가장 적합한 툴을 선택하는 데 필요한 구체적인 판단 기준을 얻어 가세요.

 

소라2 vs Veo 3.1 완벽 비교: 영상 AI 최강자는? (프롬프트 제공)

본 타임라인 노트는 오픈AI의 소라2와 구글의 Veo 3.1 최신 영상 AI 모델을 다양한 측면에서 비교 분석한 내용을 시간 순서대로 정리합니다. 비교는 공정성을 위해 동일한 프롬프트를 사용하고 단 한 번의 생성 결과만을 기준으로 진행되었습니다.

 

1. 초기 모델 비교 및 테스트 환경 설정

  1. 모델 출시 배경: 구글이 소라2를 의식하여 Veo 3.1을 출시했으며, 5월에 출시된 Veo 3.0이 불과 5개월 만에 구형처럼 느껴지게 되었다고 언급됩니다.

  2. 비교 목표: 오픈AI의 소라2와 구글의 Veo 3.1을 모든 방면에서 비교하는 것이 목표입니다.

  3. 테스트 공정성: 공정성을 위해 정확히 같은 프롬프트딱 한 번의 생성만으로 나오는 영상들로 비교합니다.

  4. 프롬프트 제공: 사용된 모든 프롬프트는 설명란에 제공됩니다.

 

2. 실전 테스트 1: 윌 스미스 스파게티 영상 (인물 및 디테일)

  1. 테스트 개요: AI 영상 생성 테스트의 국룰로 자리 잡은 '윌 스미스 스파게티' 영상을 제작합니다.

  2. Veo 3.1 결과:

    1. 윌 스미스가 아닌 다른 사람을 생성했습니다.

    2. 스파게티 면의 움직임이 조금 일그러지고 이상하게 움직이긴 하지만, 전체적으로는 자연스러운 느낌이 있습니다.

  3. Sora 2 결과:

    1. '윌 스미스'라는 단어 때문에 정책 위반으로 생성 자체가 실패했습니다.

    2. 궁금증 해소를 위해 프롬프트를 '흑인'으로 바꿔서 재시도했습니다.

    3. 스파게티 면 움직임은 나름 자연스러웠으나, 입에 한 가닥 남은 디테일이 거슬렸습니다.

  4. 종합 평가: 두 모델 모두 스파게티 면이나 사람의 입 모양 등 세부적인 요소에서는 아직 부족하지만, 옛날 영상 대비 엄청난 발전을 보였습니다.

 

3. 실전 테스트 2: 물리 현상 구현 성능 테스트

 

3.1. 백플립 구현 테스트

  1. 테스트 내용: 체조 선수의 백플립을 얼마나 잘 구현하는지 확인합니다.

  2. Veo 3.1 결과:

    1. 백플립 자체는 나름 잘 구현했지만, 다시 돌아오는 모습이 실제 사람의 행동 같지 않다고 평가됩니다.

    2. 물리 현상과는 무관하지만, 뒤쪽 전광판에 여자의 영상이 똑같이 틀어져 있는 디테일은 놀라웠습니다.

  3. Sora 2 결과:

    1. 백플립 착지 후 균형을 잡으려는 노력하는 모습이 자연스러웠습니다.

    2. 전반적으로 선수 행동이 실제와 더 비슷하게 구현되었습니다.

 

3.2. 뉴턴 진자 운동 테스트

  1. 테스트 내용: 물리 테스트에 자주 사용되는 뉴턴 진자 운동을 시도합니다.

  2. Veo 3.1 결과:

    1. 처음에 이상한 방향으로 쇠구슬을 들었다 놓았지만, 에너지가 반대쪽 공까지 전달되고 반대쪽 공이 같은 방향으로 밀려나는 것까지는 구현했습니다.

    2. 그 이후로는 완전히 제멋대로 움직이는 모습을 보였습니다.

  3. Sora 2 결과:

    1. 실제 영상을 학습한 것처럼 올바른 방향으로 공이 들어졌다가 놓아지고, 에너지가 전달되는 방향까지 잘 모사했습니다.

    2. 다만, 타이밍이 맞지 않는 모습을 보였습니다.

  4. 종합 평가: 두 모델 모두 완벽하지는 않으며, 보는 사람으로 하여금 AI를 응원하게 만드는 느낌을 준다고 평가됩니다.

 

4. 실전 테스트 3: 사운드 테스트

 

4.1. 대사 정확도 테스트 (야나두 스타일)

  1. 테스트 내용: 대사 정확도를 보기 위해 "할머니 안 힘들어요? 아 나 왕년에 마라톤도 뛰었었어", "할머니 마라톤이 아니라 메라톤이에요"라는 대사를 사용합니다.

  2. Veo 3.1 결과:

    1. 대사와 타이밍 모두 정확하게 구현했습니다.

    2. 두 번째 '마라톤'을 영어 발음으로 정확히 하기를 원했으나, 한국인 발음으로 생성했습니다.

  3. Sora 2 결과:

    1. 타이밍과 대사 모두 정확했으며, 두 번째 '마라톤' 발음도 의도대로 정확하게 처리했습니다.

    2. 다만, 대사 중간에 영어가 섞여서인지 '요'를 이상한 타이밍에 말하는 문제가 있었습니다.

  4. 종합 평가: 두 모델 모두 한 번에 완벽하게 의도대로 생성하지는 못했지만, 몇 번 생성하면 충분히 구현 가능해 보입니다.

 

4.2. 복합적인 사운드 섞임 테스트

  1. 테스트 내용: 다양한 소리(화재, 경적, 노래 소리 등)가 섞인 복합적인 장면을 테스트합니다.

  2. Veo 3.1 결과:

    1. 전반적으로 모든 사운드를 구현했습니다.

    2. 화재 소리, 경적, 노래 소리 등은 나왔으나 발소리가 빠졌습니다.

    3. 소리들이 자연스럽게 섞이는 느낌이 아니라 나열된 느낌이 납니다.

  3. Sora 2 결과:

    1. 발소리, 대화 소리, 경적, 노래 소리까지 구현을 잘 했고, 강아지 소리만 빠졌습니다.

    2. 이 소리들이 도심에서 듣는 것처럼 자연스럽게 섞여서 들리도록 잘 만들어 줬습니다.

 

5. 실전 테스트 4: 비디오 퀄리티 테스트 (시네마틱 표현)

  1. 테스트 개요: 시네마틱 장면 표현 능력을 확인하며, 공정성을 위해 Sora 2는 프로 버전으로 생성했습니다.

  2. Veo 3.1 결과:

    1. 영상 퀄리티는 다른 모델 대비 압도적입니다.

    2. 햇빛부터 배경의 폭포까지 시네마틱 영상을 텍스트만으로 잘 구현했습니다.

  3. Sora 2 결과:

    1. 실사가 아닌 약간 그림 같은 느낌이 납니다.

    2. AI 초창기 시절 Stable Diffusion으로 뽑던 이미지처럼 나왔습니다.

  4. 학습 데이터 추정: Veo는 고품질 비디오 위주로 학습된 것 같고, Sora는 조금 더 일상적인 비디오 위주로 학습된 것으로 추정됩니다.

  5. 이미지 비디오 생성 시 퀄리티 비교:

    1. Veo는 이미지 비디오에서도 고품질 영상을 잘 생성하며 스파크나 라이트닝 이펙트도 잘 표현했습니다.

    2. Sora는 재생이 되고 있음에도 불구하고 갑자기 추진력을 모았다가 바람 빠지는 풍선처럼 움직이는 현상이 발생했으며, 재시도해도 움직임이 거의 없었습니다.

  6. 종합 평가: 이미지 비디오 퀄리티 테스트에서는 Veo의 압승으로 볼 수 있습니다.

 

6. 실전 테스트 5: 영상 컨트롤 능력 비교

 

6.1. 대표적인 컨트롤 기능: 프롬프트 2D 비교

  1. 테스트 개요: 창의력이 필요한 짧은 프롬프트부터 초 단위로 명령을 분할한 긴 프롬프트까지 모두 테스트합니다.

  2. 맥북 이미지 광고 영상 테스트 (자유도 좁힘):

    1. Veo 3.1: 멋있게 시작했으나 전혀 맥락이 없는 영상을 만들어 버렸습니다.

    2. Sora 2: 자유도가 높은 프롬프트에서 강점을 보이며, 나레이션까지 맥락에 맞게 정확히 생성하고 다양한 컷으로 구성을 알아서 했습니다.

 

6.2. 긴 프롬프트 (시간별 명령 분할) 비교

  1. 테스트 개요: 시간별로 끊어서 프롬프트를 제공하는 긴 프롬프트 테스트를 진행합니다.

  2. Veo 3.1 결과:

    1. 시작은 나름 괜찮았으나, 빨갛게 표시된 부분이 구현되지 않았습니다. 사소한 디테일을 제외하고는 모두 구현했습니다.

    2. 점점 시간 타이밍이 밀리더니, 2~3초 구간은 아예 엉뚱한 장면을 넣었습니다.

    3. 3~4초 컷이 너무 길었고, 시간이 밀려서 6~8초 사이의 지시는 아예 무시했습니다.

    4. JSON 프롬프트로 바꿔서 시도해도 거의 비슷하게 타이밍을 맞추지 못했습니다.

  3. Sora 2 결과:

    1. 깜짝 놀랄 정도로 잘 구현했으며, 전체적으로 대사 타이밍이 1초씩 늦은 것을 제외하고는 초별 디테일을 거의 모두 구현했습니다.

    2. 1초씩 컷을 끊는 것을 잘 해줘서 전체적인 흐름의 의도를 잘 유지했습니다.

    3. JSON 파일이 아닌 줄글로 써도 잘 작동했으며, 이 프롬프팅 방식이 유용할 것으로 보입니다.

 

6.3. 이미지 프롬프트 이해도 비교 (스토리보드 변환)

  1. 테스트 개요: 여러 컷의 카툰 이미지를 넣고, 이 스토리보드를 시네마틱 영화로 바꾸고 대사도 그대로 따르도록 지시합니다.

  2. Veo 3.1 결과:

    1. 장면들은 시네마틱하게 잘 만들었으나, 회사가 제멋대로 나왔습니다.

    2. 카툰에서 지저분한 방이었던 곳을 깔끔하게 정리해 버렸습니다.

  3. Sora 2 결과:

    1. 동작들이 조금 어색한 부분이 있었으나, 대사를 카툰의 첫 컷부터 순서대로 똑같이 말했습니다.

    2. 대사 길이와 분량만 맞추면 완벽하게 구현할 것 같다고 평가됩니다.

    3. 지저분한 방 등 전반적인 텍스트뿐만 아니라 이미지 프롬프트도 Veo보다 이해도가 높습니다.

 

6.4. Veo 3.1의 강력한 컨트롤 툴: 프레임 설정

  1. Veo 3.1의 장점: Sora에는 없는 마지막 프레임 설정 기능이 있습니다.

  2. 기능 활용: 첫 프레임과 마지막 프레임 모두 이미지를 넣고 생성하면, 영상을 원하는 방향으로 더 많이 컨트롤할 수 있습니다.

 

6.5. Sora의 치명적인 단점: 실사 인물 이미지 입력 불가

  1. Sora의 단점: 실사 인물의 이미지를 넣을 수 없다는 점이 가장 큰 단점입니다.

  2. 제한 사항: 내 얼굴은 카메라 기능을 통해 넣을 수 있지만, 원하는 모델이나 AI로 생성한 실사 인물 이미지도 넣을 수 없는 것은 영상 컨트롤 관점에서 매우 치명적인 마이너스 요소입니다.

 

7. 실전 테스트 6: 인물 및 제품 일관성 유지력 비교

 

7.1. 제품 일관성 테스트 (로고/텍스트 유지)

  1. 테스트 개요: 제품 이미지를 넣고 일부러 다이나믹한 움직임을 주어 로고나 텍스트를 잘 유지하는지 확인합니다.

  2. Veo 3.1 결과:

    1. 선수가 등장하자마자 로고가 틀렸습니다.

    2. 긴팔이 아닌데 소매 등 디테일이 모두 달라졌습니다.

  3. Sora 2 결과:

    1. 역동적인 장면에서도 중간중간 프레임을 멈춰봐도 신기하게 로고를 유지를 잘 해줬습니다.

    2. 화질 때문에 깨지는 것을 제외하면, 로고가 변형되거나 뭉개지는 현상이 덜합니다.

  4. 초기 평가: 이 부분만 보면 Sora 2의 앞승으로 보입니다.

 

7.2. Veo 3.1의 무기: Image-to-Video (I2V) 기능

  1. Veo의 강점: Sora에는 없는 I2V 기능이 있습니다.

  2. I2V 기능 사용 방법:

    1. Flow에서 새 프로젝트를 열고 'I2V로 동영상 만들기' 기능을 선택합니다.

    2. 세 장까지 이미지를 넣을 수 있으며, 이미지 요소를 유지하면서 영상을 생성합니다.

    3. 배경 사진, 제품 사진, 모델 사진을 넣고 프롬프트는 "이 여자가 이 배경에서 이 제품을 들고 있는 화장품 광고 영상"이라고만 작성했습니다.

    4. 설정을 마친 후 생성하면, 모델 얼굴, 제품, 배경까지 잘 유지하면서 영상을 만들어 줍니다.

  3. I2V 기능의 의의: 이 기능을 사용하면 Sora 2에서는 불가능했던 실사 사람 이미지와 제품의 일관성을 유지하면서 생성이 가능합니다.

  4. 추가 기능: 인서트(Insert):

    1. 수정 버튼을 눌러 텍스트 묘사만으로 영상에 다른 요소(예: 선글라스)를 추가할 수 있습니다.

    2. 추가된 선글라스가 잘 적용된 것을 확인할 수 있습니다. (수정 기능 사용 시 생성과 동일한 크레딧 소모)

  5. 추가 기능: 확장(Extend):

    1. 장면 추가 후 확장을 누르면, Veo 3.0에서는 불가능했던 확장 기능이 3.1에서 가능해졌습니다.

    2. 다음 장면에 원하는 내용을 써주고 생성하면 자연스럽게 이어지게 영상 확장이 가능합니다.

    3. Veo의 8초 생성 제약이 있었으나, 이 기능을 잘 활용하면 돈이 있는 한 몇 분짜리 영상도 제작 가능해 보입니다.

 

7.3. Sora 2의 인물 일관성 유지 꿀팁 및 비교

  1. Sora 2 생성 길이: 현재 무료 사용자는 15초까지, 프로 구독자는 25초까지 생성이 가능합니다.

  2. 인물 일관성 꿀팁: 실사 이미지를 직접 넣을 수 없는 단점을 우회하는 방법이 있습니다.

    1. 나노바(Nanobara)에 실사 이미지를 넣고, 이 이미지를 디테일한 연필 드로잉 스타일로 변환합니다.

    2. 생성된 드로잉 이미지를 Sora에 넣고, 이 인물이 주인공인 액션 신을 모사하면 나름의 인물 일관성을 유지할 수 있습니다.

  3. 최종 일관성 평가: 실사 이미지를 그대로 넣을 수 있는 Veo와 비교하면, Sora는 영상 생성마다 인물이 조금씩 달라지므로 인물 일관성은 Veo가 훨씬 낫다고 볼 수 있습니다.

 

8. 가격 비교 및 최종 결론

 

8.1. API 사용 시 가격 비교

  1. API 외부 플랫폼 생성 시: 퀄리티에 따라 초당 0.1에서 0.45달러 정도가 소요됩니다.

  2. 예상 비용: 10초짜리 영상을 생성할 경우 약 1,500원에서 5,000원 정도가 들 수 있습니다.

  3. 평가: 둘 다 비싼 편이라고 평가됩니다.

 

8.2. 각 플랫폼 자체 가격 비교

  1. Sora 2 가격:

    1. 초대 코드가 있다면 기본 모델은 무료로 사용할 수 있습니다.

    2. 프로 모델 사용 시 월 200달러를 지불해야 합니다.

    3. 자체 플랫폼에서 생성할 경우, 프로 모델이라도 워터마크가 무조건 생성됩니다.

  2. Veo 3.1 가격 (Google 구독 기준):

    1. 월 29,000원 구독 시, Gemini Advanced에서 하루에 3개까지 생성이 가능합니다.

    2. 월 36만 원 구독 시 무제한으로 사용할 수 있습니다.

    3. 월 29,000원 구독제는 Flow 플랫폼에서 월 1,000 크레딧을 추가 제공하므로, Veo 3.1 Fast 모델 기준으로 한 달에 약 50개 영상을 추가 생성할 수 있습니다.

    4. 월 29,000원으로 하루에 대략 4.5개에서 5개 정도 생성 가능하다고 볼 수 있습니다.

 

8.3. 최종 비교 및 적용 시나리오 제안

  1. Sora 2의 장단점:

    1. 장점: 영상 컨트롤이 놀라울 만큼 우수합니다.

    2. 단점: 워터마크가 있고 실사 사람 이미지를 넣을 수 없다는 치명적인 단점이 있습니다.

  2. Veo 3.1의 장단점:

    1. 장점: 시네마틱 퀄리티제품/인물 일관성 유지력이 좋습니다.

    2. 단점: 프롬프트 이해도가 Sora 2보다 조금 낮습니다.

  3. 적용 시나리오 제안:

    • Sora 2 추천: 영상 컨트롤이 중요하고 기획된 내용을 충실히 반영해야 하는 쇼츠 등 SNS 콘텐츠에 적합합니다.

    • Veo 3.1 추천: 고품질 영상을 보여줘야 하는 상세 페이지 제품 영상 등에 더 적합하다고 판단됩니다.

       

https://www.youtube.com/watch?v=qrPtpr0ihhI

 

반응형

댓글