このサイトはCookieを使用しています。サイトの使用を続けることで、Cookieの使用に同意することになります。

Logo
    生成AI活用ガイド
    生成AI活用ガイド

    トークン

    コンテンツカテゴリ
    用語
    AIによる要約

    トークンは自然言語処理(NLP)においてテキストデータを扱うために分割された最小単位の要素であり、ChatGPTや他の大規模言語モデルでは文章の理解と生成に使用されます。トークン化された入力を基に、モデルは文脈に沿った自然な文章を生成します。

    コンテンツ
    タグ
    基本用語
    レベル
    ツール
    ChatGPT
    作成日時
    Jan 29, 2024 7:32 AM
    最終更新日時
    Feb 7, 2024 5:21 AM

    トークンとは、自然言語処理(Natural Language Processing、NLP)において、テキストデータを扱うために分割された最小単位の要素です。具体的には、文章を構成する単語や句読点などを個別に区切ったものを指します。

    ChatGPTや他の大規模言語モデル(Large Language Models、LLM)では、トークンはモデルがテキストを理解し、生成するための基本的なビルディングブロックとなります。これらのモデルは入力されたトークンのシーケンスから、次に来るトークンのシーケンスを予測することで文章を生成します。

    例えば、「こんにちは、世界」というフレーズがあった場合、これをトークン化すると「こんにちは」「、」「世界」といった形で分割され、モデルはこれらのトークン間の関係性や文脈を学習します。トークン化の粒度はモデルによって異なり、単語、サブワード、あるいは文字レベルで行われることがあります。

    ChatGPTのようなモデルはトークン化された入力を基に、それぞれのトークンがどのような文脈で使われるかを学習し、その知識を使って新しいテキストを生成します。このプロセスにより、モデルは文法的に正しいだけでなく、文脈に沿った自然な文章を生成することが可能になります。

    ChatGPTにおけるトークン数はOpenAIが提供しているTokenizerというツールで確認できます。

    OpenAI Platform

    Explore developer resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's platform.

    platform.openai.com

    OpenAI Platform
    生成言語AIの進化:大規模言語モデルを理解する上で重要なトークンとは? | Hakky Handbook

    大規模言語モデル(LLM)におけるトークンについての記事です。トークンの役割や重要性、制約、課題などについて解説します。

    book.st-hakky.com

    TIS株式会社

    サイトのご利用について

    情報セキュリティ方針

    お問い合わせ・フィードバック

    Copyright 2024 TIS Inc.