[AI] Gemini 2.5 Pro: 복잡하고 긴 텍스트를 가장 잘 처리하는 모델이 됨

＊여성시대＊ 차분한 20대들의 알흠다운 공간

[흥미돋][AI] Gemini 2.5 Pro: 복잡하고 긴 텍스트를 가장 잘 처리하는 모델이 됨

작성시간25.03.26|조회수6,420 목록 댓글 11

출처: https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

Gemini 모델군은 텍스트 구성이 조금만 복잡해지면 성능이 엄청나게 떨어져서 특히나 픽션에서는 영 못 써먹을 모델이었음

하지만 이번에 공개된 Gemini 2.5 Pro는 이러한 부분에 대해 독보적 SoTA모델의 자리에 앉은것이 인상깊어서 퍼옴...

Fiction.LiveBench 소개: 작가를 위한 최초의 실제 세계 장문 컨텍스트 벤치마크
Fiction.live에는 작가가 요약, 타임라인, 캐릭터 바이블을 만들고 통찰력 있는 방식으로 해당 문서를 반복함으로써 시간을 절약할 수 있도록 돕는 AI 도구가 있습니다. 이를 효과적으로 수행하려면 LLM은 스토리, 각 캐릭터 및 그들의 동기를 깊고 심오한 수준에서 진정으로 이해해야 합니다. 그러나 실제로 오늘날의 AI 모델은 종종 플롯을 추적하지 못하고 캐릭터의 동기를 파악하지 못하며 작가의 의도와 완전히 일치하지 않는 엉터리 내용을 생성합니다.

근본적인 문제는 긴 맥락 이해가 여전히 불가능하다는 것입니다.

Fiction.live는 복잡하고 긴 스토리 콘텐츠를 대량으로 저장하는 곳이기 때문에 대중에게 상황을 명확하게 전달할 수 있는 좋은 위치에 있습니다.

대부분의 LLM은 수만 개, 심지어 수십만 개의 맥락 토큰을 지원한다고 주장하지만, 실제 경험은 그렇지 않다는 것을 말해줍니다.

스토리를 정말로 이해하려면 LLM은 다음과 같은 일을 해야 합니다.

- 시간이 지남에 따른 변화 추적 - 예를 들어, 서로를 미워하다가, 이제는 서로를 사랑하고, 이제는 다시 서로를 미워하고, 오, 이제는 그들의 증오가 강박관념으로 변했습니다.
- 확립된 힌트에 기반한 논리적 예측
- 독자에게 비밀로 전해지는 비밀과 등장인물에게 알려진 비밀을 이해하는 능력

LongBench나 RULER보다 쓰기 능력을 더 잘 반영하는 구체적이고 긴 맥락의 실제 세계 테스트입니다. LongBench나 RULER는 이해보다는 검색을 테스트합니다.

저희의 경험에 따르면, 대부분 LLM은 이런 과제를 처리할 수 있지만, 긴 맥락에서는 그렇지 않습니다. 그래서 저희는 Fiction.LiveBench라는 새로운 벤치마크를 출시하여 사례를 보여주고 사용자에게 쓰기 과제에서 어떤 LLM을 선택해야 하는지 보여줍니다.

- o1과 Claude Sonnet 3.7-thinking은 강력합니다. 상당한 시간 동안 높은 정확도를 유지하지만, 우리의 목적에 비추어 보면 여전히 신뢰할 수 있는 실제 세계 글쓰기에 유용할 만큼 정확하지 않습니다.
- DeepSeek-r1은 o3-mini보다 상당히 성능이 뛰어납니다 . 가격에 민감한 사용자에게 좋은 선택입니다. 비논리 버전은 컨텍스트 길이가 길어질수록 갑자기 떨어집니다.
- GPT-4.5-preview는 최고의 비추론 모델입니다. 경쟁에서 우위를 점합니다.
- Google의 Gemini 2.5 Pro는 이제 명확한 SOTA입니다. LLM이 긴 컨텍스트 쓰기에 잠재적으로 사용될 수 있는 것은 이번이 처음입니다. 이제 이것으로 더 큰 토큰 크기를 테스트하는 데 관심이 있습니다.
- Gemma-3은 이 시험에서 그다지 좋은 성적을 거두지 못했습니다.
- Anthropic의 Sonnet-3.7은 3.5에 비해 엄청난 개선을 보여줍니다 . Thinking 변형은 8000-think 토큰을 사용하는데, 논리가 간단하기 때문에 충분할 것입니다.
- 잠바는 즉시 50% 미만으로 시작 하지만 그 이후부터는 감소폭이 완만합니다.
- Qwen-max는 데이터가 있는 작은 컨텍스트 창에서는 효과적입니다 . qwq는 뛰어나고 R1보다 더 좋습니다.

다음검색