AI分野の先駆者であるOpenAI社2023年11月6日(現地時間)、自社の人工知能プラットフォームにおける一連の新機能と改善点を公開し、同時に価格の大幅な削減を発表しました。この更新には、パワフルな新モデル「GPT-4 Turbo」のプレビュー版の開始が含まれています。
ChatGPT 4/3.5が大幅に進化
「GPT-4 Turbo」は、既にパフォーマンスを高めた最新モデルであり、2023年4月までの世界の出来事に関する知識を持ち合わせています。驚異的な128Kのコンテキストウィンドウを備えており、300ページを超えるテキスト相当量のデータを単一のプロンプトで処理可能です。さらに、入力トークンの価格を以前の3倍、出力トークンの価格を2倍に削減し、コストパフォーマンスを大幅に改善しました。
全ての有料開発者は、APIを通じて「gpt-4-1106-preview」としてこの新モデルを試用することができ、安定版のリリースは数週間内を予定しています。
加えて、複数の機能を単一のメッセージで呼び出すことができる関数呼び出しの更新が行われました。これにより、ユーザーは「車窓を開けてエアコンを切って」といった複数のアクションを一度に要求できるようになり、関数呼び出しの精度も向上しました。
GPT-4 Turboは、指示に厳密に従うタスクで前モデルを上回るパフォーマンスを発揮します。新しいJSONモードでは、構文的に正しいJSONオブジェクトの生成が保証され、開発者は新たなAPIパラメーター「response_format」を活用できます。
また、新しいseedパラメーターにより、出力の再現性が保たれ、モデルの予測可能性が向上しました。さらに、OpenAIは今後数週間で、GPT-4 TurboおよびGPT-3.5 Turboによる出力トークンのログ確率を返す機能も提供予定です。
GPT-3.5 Turboも新バージョンがリリースされ、デフォルトで16Kのコンテキストウィンドウをサポートし、指示の遵守、JSONモード、並行関数呼び出しに対応しています。形式の遵守タスクにおける38%の改善が内部評価で確認されています。
開発者は「gpt-3.5-turbo-1106」をAPIで呼び出し、新機能を利用できます。既存の「gpt-3.5-turbo」を使用しているアプリケーションは、2023年12月11日に自動的に新しいモデルへとアップグレードされます。古いモデルは、2024年6月13日まで利用可能です。
Assistants API、Retrieval、およびCode Interpreterが登場!
あらたに開発者たちがアプリケーション内で高度なAIアシスタント体験を構築できるよう支援する新たなAssistants APIがリリースされました。このAPIにより、特定の指示を実行し、追加知識を取り入れ、必要なモデルやツールを活用してタスクをこなすAIアシスタントを設計することが可能になります。
Assistants APIは、自然言語処理を基盤としたデータ分析ツール、コーディング支援、AIによるバケーションプランニング、音声制御可能なDJシステム、スマートビジュアルキャンバスなど、多岐にわたるユースケースに対応しています。このAPIは、GPTsの新製品群に実装された先進機能に基づき、カスタム指示、コードインタープリタ、情報取得機能などを利用できるように設計されています。
最新のAPIの目玉機能の一つは、永続的で無制限のスレッド対応です。これにより、開発者はスレッドの状態管理をOpenAIに任せることができ、これまでのコンテキストウィンドウの制約から解放されます。新しいメッセージを既存スレッドに追加するだけで、アシスタントが連続した会話を継続できるようになります。
加えて、Assistants APIにより、以下のような新しいツールを呼び出すことが可能です。
Code Interpreter:Pythonコードをサンドボックス環境で記述・実行し、グラフやチャートの生成、様々なデータとフォーマットのファイル処理が可能になり、アシスタントが難解なコードや数学問題を解決できるようになります。
Retrieval:アシスタントが外部モデルから情報を取得できるようにする機能で、プロプライエタリなデータや製品情報、ユーザー提供のドキュメントなどが含まれます。文書の埋め込み計算や保管、チャンキング、検索アルゴリズムの実装が不要になり、ChatGPTでの経験に基づいて検索技術が最適化されます。
Function calling:アシスタントが定義した関数を呼び出し、その応答をメッセージに組み込む機能です。
OpenAI APIは、プラットフォーム全体で安全に運用されており、開発者が送信するデータやファイルはモデルのトレーニングには使用されず、必要に応じてデータの削除も可能です。これにより、開発者は高品質なAIアプリケーションの構築に集中できるようになります。この革新的なAPIのリリースにより、開発者たちが提供できるアプリケーションの質と能力が一層向上することが期待されます。
GPT-4 Turboが新たなビジョン機能をサポート
画像入力に対応し、豊富な視覚的タスクを可能にするGPT-4 Turboが登場しました。この新機能により、開発者はChat Completions APIを介して、画像を基にキャプションを生成したり、実世界の画像の詳細分析を行ったり、図表が含まれる文書を読むなどの処理を実現できます。例えば、視覚障害者支援アプリ「BeMyEyes」は、この技術を応用して製品の識別や店内ナビゲーションの支援を行っています。開発者はAPIのgpt-4-vision-previewを使用することで、ビジョン機能にアクセスできます。この機能は、メインのGPT-4 Turboモデルの安定版リリースにも実装される予定です。利用料金は画像のサイズによって変動し、例えば1080×1080ピクセルの画像を処理するコストは0.00765ドルです。さらなる情報はビジョンガイドで提供されます。
DALL·E 3が開発者に新たな画像生成オプションを提供
ChatGPT PlusやEnterpriseユーザーに最近提供されたDALL·E 3は、開発者がImages APIを通じて自身のアプリケーションや製品に直接組み込むことが可能です。企業はDALL·E 3を活用し、顧客やマーケティングキャンペーン向けの画像やデザインをプログラム的に生成しており、Snap、Coca-Cola、Shutterstockなどがその例です。APIには、以前のDALL·E同様に誤用を防ぐための組み込みモデレーション機能が含まれています。異なるフォーマットと品質の選択肢を提供し、価格は生成される画像ごとに設定されます。DALL·E 3 APIのスタートガイドでより詳しい情報を入手できます。
開発者向けに新しいTTSモデルを導入
開発者は今、テキストから人間のような高品質の音声を生成できるようになりました。新しいTTSモデルには、6種類のプリセットボイスが選択でき、リアルタイム対応のtts-1と高品質対応のtts-1-hdの2つのバリアントがあります。料金は1,000文字のテキストを読み上げるために0.015ドルから始まります。TTSの使用方法やその他の詳細についてはTTSガイドを参照してください。
GPT-4のファインチューニングに関する実験的アクセスプログラムを開始
他にも、GPT-4のファインチューニングに関する実験的なアクセスプログラムの開発に取り組んでいます。初期の段階から得られた結果は、GPT-4を前モデルのGPT-3.5と同等のレベルにファインチューニングするためには更なる労力が要することを示しています。GPT-3.5のファインチューニングを利用している開発者は、新たにこのプログラムへの参加を申請することができ、ファインチューニングコンソールを通じて適用することが可能になる見込みです。
また、特に大規模な独自データセットを必要とするドメインのために、カスタムモデルプログラムも立ち上げられます。選ばれた組織は、OpenAIの研究チームと連携し、専用のGPT-4モデルを特定の分野に最適化してトレーニングする貴重な機会を得ることができます。これには、特定のドメインの事前トレーニングから、カスタムRLのポストトレーニングプロセスに至るまで、トレーニングプロセス全体のカスタマイズが含まれます。提携組織は、自らのカスタムモデルへの独占的なアクセスを保有し、OpenAIの厳格な企業プライバシーポリシーに基づき、そのモデルが他の顧客と共有されることは決してありません。また、カスタムモデルのトレーニングに使用されるプロプライエタリデータは、他の目的で再利用されることもありません。このプログラムは初期段階で限られた組織にのみ提供され、参加を希望する組織は申し込みが可能ですが、コストは高額になるとされています。
さらに、OpenAIはプラットフォーム全体での価格引き下げを実施し、開発者にとってのコスト削減を実現しました。新たな価格体系によると、GPT-4 Turboの入力トークンが0.01ドル、出力トークンが0.03ドルで、これはそれぞれGPT-4の価格の3分の1、2分の1となります。GPT-3.5 Turboの入力トークンは、以前の16Kモデルよりも3倍のコスト削減が見られ、0.001ドルで提供され、出力トークンも2倍安い0.002ドルです。これらの価格は、新しく導入されたGPT-3.5 Turboにのみ適用されます。また、ファインチューニングされたGPT-3.5 Turbo 4Kモデルの入力トークンは0.003ドル、出力トークンは0.006ドルと、従来モデルに比べて大幅に安価になっており、ファインチューニングされた新しいモデルでは、4Kモデルと同じ価格で16Kのコンテキストをサポートします。これらの新しい価格設定は、ファインチューニングされたGPT-3.5 Turboモデルにも適用されるとのことです。
GPT-4利用顧客のアプリケーション拡張支援を強化
AI技術のパイオニアであるOpenAIは、有料のGPT-4サービスを利用する全ての顧客に向けて、1分間あたりのトークン制限を2倍に増やすことを発表しました。この新しい制限は、同社のウェブサイトにある制限ページで確認できます。加えて、使用量に基づき自動的に制限が増加するティアも公開され、顧客はアカウント設定を通じて制限の増加をリクエストすることが可能になりました。
著作権の保護を強化する新たな取り組み
さらに、OpenAIは著作権のセーフガードを組み込んだシステムを通じて顧客を保護し続けており、本日、Copyright Shield(著作権シールド)の導入を発表しました。これにより、著作権侵害の法的なクレームに直面した場合に、OpenAIが顧客を守り、発生したコストを負担するとしています。この機能は、ChatGPT Enterpriseや開発者プラットフォームに広く適用される予定です。
次世代のオープンソース技術を公開
OpenAIはまた、最新のオープンソース自動音声認識モデルであるWhisper large-v3をリリースしました。このモデルは、言語間でのパフォーマンス向上が特徴です。今後APIを介してWhisper v3をサポートする計画も発表されています。
さらに、Consistency Decoderをオープンソース化しました。これはStable Diffusion VAEデコーダーの代わりとして利用でき、Stable Diffusion 1.0+ VAEと互換性がある全ての画像を改善するもので、特にテキスト、顔、直線のレンダリングにおいて大幅な進歩があります。これらの新たなリソースにより、開発者やクリエイターはより高度なアプリケーションを構築し、革新を促進することができるようになります。
関連リンク
New models and developer products announced at DevDay (openai.com)