31일차 | LLM 성능 비교 — 40대 직장인이 실무에서 체감한 AI 서열과 인재 전쟁

경제적 자유 도전기 · 31일차

매일 산더미처럼 쌓이는 회사 행정 업무 속에서 어떤 AI 도구를 써야 가장 정교하고 빠르게 일을 끝낼 수 있을지 고민해본 적이 있으신가요? 똑같은 프롬프트(요청)를 입력해도 LLM 모델마다 내놓는 결과물의 완성도가 확연히 다르다 보니, 이제 직장인에게 대형언어모델(LLM)을 선별하는 안목은 개인의 핵심 생산성이자 경쟁력이 되었습니다.

실제 직장 실무 전선에서 보고서 작성, 데이터 정리, 기획안 검토 등 다양한 행정 과제를 수행하며 체감한 LLM 모델들의 주관적이면서도 솔직한 서열을 공유합니다. 더불어 매번 왜 이런 성능 차이가 발생하는지, 그 배경에 숨겨진 실리콘밸리의 거대한 인재 이동 흐름까지 함께 정리했습니다.

실무 행정에서 체감한 LLM 성능 비교와 서열

현재 제 업무 환경을 기준으로 행정 업무 효율성 1위는 단연 클로드(Claude)입니다. 한마디로 '알잘딱깔센(알아서 잘 딱 깔끔하고 센스 있게)'의 표본이라고 할 수 있습니다. 이미지 제작 기능이 없어 가끔 아쉬울 때도 있지만, 원본 자료나 초안 자료를 넣고 워드 문서나 엑셀 표를 작성해 달라고 하면 그야말로 고품질의 결과물을 줍니다. 그리고, 예상질문 등을 만드는 등 거친 문맥을 세련되게 다듬는 능력은 단연 독보적입니다. Pro 요금제($20)를 사용하는데, 토큰이 금새 소진되는 단점이 있어서 아껴서 써야 됩니다.

2위는 챗GPT(ChatGPT)입니다. 글을 다듬는 솜씨나 Dall-E 기반의 이미지 생성 역량 측면에서 제미나이보다 한 수 위의 범용성을 보여줍니다. 또한, 근래 이미지 제작이 크게 향상되면서 내용을 넣고 ppt용 이미지를 만들어 달라고 하면 ppt 전문가 수준으로 제작해 줍니다. 또한, 영어학습을 위해 챗GPT와의 프리토킹은 효과적입니다. Plus 요금제 ($20) 사용중인데, 토큰도 오래 지속되고요. 반면 3위로 밀려난 제미나이(Gemini)는 초기에 노트북LM(NotebookLM) 연동 등으로 ppt용 이미지 (원페이지 인포그래픽, 슬라이드 자료)를 제작해 줘서 멀티모달 기능에 '우와'하는 탄성이 나왔으나, 쓰면 쓸수록 지정한 조건이나 프롬프트의 요구사항을 정확히 반영하지 못하고 결과값이 겉돌아 실무에서 답답함을 느끼는 경우가 잦아졌습니다. 그래도 여전히 자사 제품 이해도를 단시간내에 빠르게 이해하는 목적으로 NotebookLM의 'AI 오디오 오버뷰' 기능을 활용하면 좋습니다. 챗GPT와 마찬가지로 토큰이 오래 지속됩니다. 구글 AI Pro (약 $20, 6개 계정 가족 공유 가능) 구독중

사용자의 프롬프트 수준만큼 답을 준다고는 하지만, 같은 프롬프트를 사용해도 모델마다 학습 방법과 미세한 알고리즘 차이로 인해 최종 결과물의 격차가 크게 벌어집니다.

수조 원 몸값, 실리콘밸리 천재 연구자들의 이직 트렌드

우리가 매일 사용하는 인공지능 도구들의 성능 변동 뒤에는, 실리콘밸리 테크 업계에서 실시간으로 벌어지고 있는 천재 연구자들의 '인재 쟁탈전'이 강력한 배경으로 작용하고 있습니다. "천재 아키텍트 한 명이 수조 원의 가치를 지닌다"는 판단 아래 빅테크와 스타트업이 자본력을 무기로 핵심 인재를 빼앗고 빼앗기는 드라마가 펼쳐지고 있기 때문입니다.

대표적인 흐름이 트랜스포머 아키텍처 논문의 핵심 저자인 놈 샤지어(Noam Shazeer)의 행보입니다. 구글을 나와 캐릭터.AI를 창업했던 그를 구글은 약 27억 달러(약 3조 6천억 원)라는 거액의 기술 라이선스 계약 형식으로 팀째 영입(Acqui-hire)해 제미나이 개발을 맡겼었습니다. 하지만 그는 최근 OpenAI의 아키텍처 연구 책임자로 다시 자리를 옮기며 업계에 큰 충격을 주었습니다.

또 다른 축은 안전성과 철학의 차이로 갈라진 OpenAI와 앤트로픽(Anthropic)의 인재 순환 구조입니다. 과거 OpenAI의 상업화 노선에 반발해 나와 클로드를 만든 다리오 아모데이 남매의 이탈을 시작으로, 최근에는 OpenAI 공동 창립자이자 테슬라 AI 책임자였던 안드레이 카파시(Andrej Karpathy)마저 앤트로픽의 사전학습 팀 리더로 합류했습니다. 결국 이러한 거물급 연구자들의 연쇄 이직과 기술적 결합 방식의 차이가 우리가 체감하는 서비스 고도화의 차이로 이어지는 셈입니다.

잠깐, 스스로에게 물어봅니다 나는 고정된 하나의 AI 툴에만 의존하고 있는가, 아니면 각 모델의 고유 특성과 지각변동을 이해하고 업무에 맞게 골라 쓰고 있는가?
llm-performance-comparison-office-worker
오늘의 기록 • 행정 업무 체감 서열: 1위 클로드(맥락 조율 및 문서화), 2위 챗GPT(텍스트 편집 및 이미지), 3위 제미나이(요청 미이행 잦음).
• 프롬프트가 동일하더라도 LLM의 고유 미세조정(Fine-tuning) 및 알고리즘 차이로 비즈니스 아웃풋의 질이 달라짐.
• AI 툴의 성능 격차 이면에는 놈 샤지어, 안드레이 카파시 등 수조 원대 몸값을 움직이는 실리콘밸리 연구자들의 연쇄 이동 잔혹사가 존재함.
비슷한 실무 고민을 하고 계신다면, 여러분이 현업에서 체감한 가장 유용한 AI 도구는 무엇인지 댓글로 의견을 들려주세요.

댓글

이 블로그의 인기 게시물

17일차 | 블로그 조회수 안 나올 때 — 2개월간 직접 실험하고 바꾼 3가지

2026년 IPO 대어: 현대차 보스턴 다이내믹스 상장 전망 및 투자 가이드