알리바바, 새로운 AI 모델이 DeepSeek 및 ChatGPT보다 우수하다고 주장

중국 기술 회사 알리바바가 급성장하는 인공지능(AI) 산업에서 경쟁하기 위해 수요일에 새로운 AI 모델 Qwen 2.5-Max를 출시하며, DeepSeek의 AI, OpenAI의 GPT-4o 및 메타의 Llama와 같은 잘 알려진 모델의 성능을 초월했다고 주장했습니다.

설날 첫날에 Qwen 2.5-Max를 출시한 것은 많은 중국 사람들이 전통적으로 일을 쉬고 가족과 시간을 보내는 시점에서, DeepSeek의 지난 3주간의 급속한 성장으로 인해 해외 경쟁자뿐만 아니라 텐센트 홀딩스와 바이두와 같은 국내 경쟁자들에게도 압박을 가하고 있음을 전략적으로 강조합니다.

회사의 새로운 모델은 20조 개 이상의 토큰을 기반으로 개발되었으며, 선별된 감독된 미세 조정(SFT) 및 인간 피드백으로부터의 강화 학습(RLHF) 방법론으로 추가 후 훈련되었습니다.

“Qwen 2.5-Max는 거의 모든 면에서 GPT-4o, DeepSeek-V3 및 Llama-3.1-405B를 초월합니다.” 알리바바의 클라우드 부서는 공식 위챗 계정에 게시된 발표에서 OpenAI 및 메타와 같은 국제 거대 기업을 언급하며 말했습니다.

알리바바는 Qwen2.5-Max가 Arena-Hard, LiveBench, LiveCodeBench 및 GPQA-Diamond를 포함한 여러 벤치마크에서 DeepSeek V3를 초월한다고 발표했습니다.

또한 MMLU-Pro를 포함한 다른 평가에서도 인상적인 결과를 보여주었습니다.

회사의 기본 모델은 대부분의 벤치마크에서 상당한 개선을 보여주었으며, 후 훈련 방법의 발전이 다음 버전의 Qwen2.5-Max를 더욱 높은 성능 수준으로 끌어올릴 것이라고 확신하고 있습니다.

“기본 모델을 비교할 때, 우리는 GPT-4o 및 Claude-3.5-Sonnet과 같은 독점 모델에 접근할 수 없습니다. 따라서 우리는 Qwen2.5-Max를 선도적인 오픈 웨이트 MoE 모델인 DeepSeek V3, 가장 큰 오픈 웨이트 밀집 모델인 Llama-3.1-405B 및 상위 오픈 웨이트 밀집 모델 중 하나인 Qwen2.5-72B와 비교합니다.”라고 회사는 블로그에서 말했습니다.

또한 알리바바의 Qwen은 “현재 Qwen2.5-Max가 Qwen Chat에서 사용 가능하며, 모델과 직접 채팅하거나, 아티팩트로 놀거나, 검색 등을 할 수 있습니다.”라고 덧붙였습니다.

이 모든 것은 2023년 알리바바의 고향인 항저우에서 설립된 중국 스타트업 DeepSeek 덕분입니다.

DeepSeek의 DeepSeek-V3 및 R1 모델 출시로 인해 미국 AI 환경에 충격파를 보냈습니다.

또한, 저렴한 비용과 컴퓨팅 파워로 인해 빠르게 글로벌 주목을 받았으며, 투자자들은 미국 기반 회사의 비싼 AI 프로젝트의 실행 가능성에 의문을 제기하고 있습니다.

스타트업의 중국 내 성공은 국가의 기술 대기업 간의 치열한 경쟁을 촉발했습니다.

예를 들어, DeepSeek가 R1 모델을 출시한 지 단 이틀 만에 TikTok의 모회사인 ByteDance는 자사의 주력 AI 모델에 대한 업데이트를 발표하며 OpenAI의 o1을 AIME에서 초월했다고 주장했습니다. 이는 복잡한 지시를 이해하고 실행하는 AI 성능을 평가하는 중요한 벤치마크 테스트입니다.

그러나 DeepSeek는 이미 R1 모델이 여러 성능 벤치마크에서 OpenAI의 o1과 경쟁하거나 초월할 수 있다고 주장했습니다.

새 게시물을 받은 편지함에서 받기