안녕하세요 여러분
오늘은 여러분들께 오늘 새벽에 런칭한
챗GPT4o
에 대해서 설명을 드릴려고합니다.
GPT-4o(“옴니”를 의미하는 “o”)는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계입니다.
텍스트, 오디오 및 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지 출력의 조합을 생성합니다.
영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴합니다.
GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어납니다.
1. 모델기능
1. 가위바위보!
2. 풍자(개그)
3. 수학, 어학 수업
4. 실시간 번역
5. 자장가를 불러줍니다
6. 말하는 속도가 빨라지는 기능
7. 생일축하 기능
8. 노래 부르기
9. AI와 영상전화 하기
10. 강아지 인식시켜보기
11. Be my eyes
등.. 여러가지 기능이 탑재되어있습니다.
GPT-4o 이전에는 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다.
이를 달성하기 위해 음성 모드는 세 가지 별도 모델의 파이프라인입니다.
하나의 간단한 모델은 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4는 텍스트를 가져와 텍스트를 출력하며, 세 번째 단순 모델은 해당 텍스트를 다시 오디오로 변환합니다.
GPT-4o를 통해 우리는 텍스트, 비전, 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했으며,
모든 입력과 출력이 동일한 신경망에서 처리된다는 의미로 해석됩니다.
GPT-4o는 이러한 모든 양식을 결합한 첫 번째 모델이기 때문에 우리는 여전히 모델이 수행할 수 있는 작업과 한계를 탐색하는 표면적인 단계에 불과합니다.
다른 모델들과의 차이
버전이해 평가도
오디오 번역 성능
오디오 ASR기능
E3eXAM 제로 샷 결과
텍스트 평가
이렇게 다른 AI들을 씹어먹고 나와버렸습니다.
다들 점점 좋아지는 AI가 무서워지지않나요..
이러다 정말 테란처럼 될지도 ㅋㅋ..
마지막으로 챗GPT 3.0 / 4.0PLUS / 4o 메인화면 보여드릴게요
오랜 대답시간.. 많지않은 데이터로 답변 능력 저조
약 응답시간 5~6초 많은 빅데이터로 사용자에게 많은 선택지와 답변을 제공
응답시간 약 2초 빅데이터는 챗GPT4.0Plus 와 비슷해보이며 다양한 기능을 탑재했으며
휴대폰으로 사용 시 더 많은 기능 사용이 가능할 것으로 보임
모든 자료 출처는 오픈AI 홈페이지를 참고했습니다.
참고로 챗GPT4o는 정식으로 구독하는 분들에게만 제공되는 서비스입니다.
챗GPT의 시대가 옵니다.