Więcej informacji o modelach Gemini

Modele z rodziny Gemini są uważane za multimodalne, ponieważ mogą przetwarzania informacji z różnych modalności, w tym obrazów, filmów, i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza i poprosić o przepis na nie.

Prompt Odpowiedź

Podaj mi przepis na te ciasteczka.

Zdjęcie kilku ciasteczek z kawałkami czekolady
**Składniki**
– 1 c. (2 pałki) masło niesolone, zmiękczone
– 3/4 c. cukier granulowany
– 3/4 c. brązowy cukier zapakowany
– 1 łyżka stołowa . ekstrakt waniliowy
– 2 duże jajka
– 21/4 c. mąka uniwersalna
– 1 łyżeczka soda oczyszczona
– 1 łyżeczka sól
...

Możesz wejść w interakcję z modelami z rodziny Gemini za pomocą Gemini API dostarczone przez: Vertex AI Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć parametru Vertex AI in Firebase pakietów SDK do wywoływania Gemini API i interakcji z interfejsem Modele Gemini bezpośrednio w aplikacji.

Ta strona zawiera te informacje o modelach Gemini:

Dostępne modele

W Vertex AI in Firebase możesz używać dowolnych z tych modeli Gemini:

  • Gemini 1.5 Flash
    Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe jako typ 1,5 Pro, ale uwzględniające 1 milion tokenów w dłuższym kontekście. Gemini 1.5 Flash został zaprojektowany z myślą o dużych ilościach, oszczędnościach aplikacji.

  • Gemini 1.5 Pro
    Model multimodalny, który umożliwia dodawanie obrazów, dźwięku, wideo i PDF w postaci promptów w formie SMS-a lub promptów na czacie. Dodatkowo obsługuje on zrozumienie długiego kontekstu z obsługą 2 milionów tokenów.

  • Gemini 1.0 Pro Vision
    Model multimodalny zaprojektowany do obsługi obrazów i filmów na potrzeby odpowiedzi tekstowej lub kodu. Nie można użyć do czatu.

  • Gemini 1.0 Pro
    Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowy czatują z tekstem i kodem oraz generowanie kodu.

Przejdź do nazw modeli, które chcesz uwzględnić w kodzie

Przypadki użycia i możliwości każdego modelu

Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na ten temat znajdziesz w dokumentacji usługi Google Cloud Modele Gemini.

Obsługiwane dane wejściowe i wyjściowe dla każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF
Wideo (tylko klatki)
Wideo (klatki i dźwięk)
Audio
Typy danych wyjściowych
Tekst
Kod

Więcej informacji o obsługiwanych typach plików znajdziesz w sekcji Obsługiwane pliki wejściowe i wymagania dotyczące standardu Vertex AI Gemini API.

Obsługiwane możliwości i ogólne funkcje każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Generowanie tekstu na podstawie promptów tekstowych
Generowanie tekstu na podstawie promptów multimodalnych
Dane wyjściowe JSON (tryb ograniczonego schematu)
(już wkrótce w pakietach SDK Vertex AI in Firebase)
Czat wieloetapowy
Wywoływanie funkcji
Wywoływanie funkcji podstawowych
Wywoływanie funkcji równoległej
Tryb wywoływania funkcji
Zliczanie tokenów i znaków podlegających rozliczeniu
Instrukcje systemowe

szczegółowe informacje o każdym modelu.

Właściwość Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* 1 048 576 tokenów 2 097 152 tokeny 16 384 tokeny 32 760 tokenów
Limit tokenów wyjściowych* 8192 tokeny 8192 tokeny 2048 tokenów 8192 tokeny
Maksymalna liczba obrazów na żądanie 3000 obrazów 3000 obrazów 16 obrazów Nie dotyczy
Maksymalny rozmiar obrazu w kodowaniu base64 7 MB 7 MB 7 MB Nie dotyczy
Maksymalny rozmiar pliku PDF 30 MB 30 MB 30 MB Nie dotyczy
Maksymalna liczba plików wideo na żądanie 10 plików wideo. 10 plików wideo. 1 plik wideo Nie dotyczy
Maksymalna długość filmu (tylko klatki) Ok. 60 minut filmu Ok. 60 minut filmu 2 minuty Nie dotyczy
Maksymalna długość filmu (klatki i dźwięk) Ok. 45 minut filmu Ok. 45 minut filmu Nie dotyczy Nie dotyczy
Maksymalna liczba plików audio na żądanie 1 plik audio 1 plik audio Nie dotyczy Nie dotyczy
Maksymalna długość ścieżki dźwiękowej Ok.8,4 godziny audio Ok.8,4 godziny audio Nie dotyczy Nie dotyczy

* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w Twoich żądaniach za pomocą countTokens.

Tutaj znajdziesz jeszcze bardziej szczegółowe informacje na temat modeli pliki wejściowe:

Obsługa wersji modeli

Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu. wersji.

  • Wersje stabilne są uważane za ogólnodostępne.

    • Wersje stabilne mają nazwy modeli uzupełnione znakiem konkretny trzycyfrowy numer wersji, na przykład gemini-1.0-pro-001.
  • Wersje automatycznie aktualizowane zawsze wskazują na najnowszą wersję stabilną ten model; po opublikowaniu nowej stabilnej wersji, automatycznie zaktualizowana automatycznie wskazuje nową wersję stabilną.

    • Wersje zaktualizowane automatycznie mają nazwy modeli bez wyrazu, na przykład gemini-1.0-pro.
  • Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze wskazują najnowszą wersję podglądu ten model; jeśli wydana jest nowa wersja przedpremierowa, istniejąca wersja automatycznie wskazuje nową wersję podglądu.

    • Wersje podglądu mają dołączone nazwy modeli -preview wraz z wstępną wersją modelu datę (-MMDD), na przykład gemini-1.5-pro-preview-0409. (opublikowano 9 kwietnia 2024 r.).

Dowiedz się więcej o dostępne wersje modelu Gemini i ich cykl życia w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to konkretne wartości, które umieszczasz w kodzie podczas zainicjowanie modelu generatywnego (jest to krok wymagany do wywołania funkcji Gemini API). Przykłady inicjowania w swoim języku znajdziesz tutaj: przewodnika dla początkujących.

Gemini 1.5 Flash – nazwy modeli

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-flash-001 Najnowsza stabilna wersja Gemini 1.5 Flash Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-flash Wskazuje najnowszą stabilną wersję Flasha 1.5
. (obecnie gemini-1.5-flash-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-flash-preview-0514 Najnowsza wersja testowa Gemini 1.5 Flash Publiczna wersja przedpremierowa 2024-05-14 2024-06-24

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-pro-001 Najnowsza stabilna wersja Gemini 1.5 Pro Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-pro Wskazuje najnowszą stabilną wersję systemu 1.5 Pro
(obecnie gemini-1.5-pro-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-pro-preview-0514 Najnowsza wersja testowa Gemini 1.5 Pro Publiczna wersja przedpremierowa 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Wskazuje na: gemini-1.5-pro-preview-0514
(czyli najnowsza wersja testowa)
Publiczna wersja przedpremierowa 2024-04-09 2024-06-14

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-vision-001 Najnowsza stabilna wersja Gemini 1.0 Pro Vision Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro-vision Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision
(obecnie gemini-1.5-pro-vision-001)
Ogólna dostępność 2024-01-04 ---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-002 Najnowsza stabilna wersja Gemini 1.0 Pro Ogólna dostępność 2024-04-09 Nie wcześniej niż 9.04.2025
gemini-1.0-pro-001 Wersja stabilna Gemini 1.0 Pro Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro Wskazuje najnowszą stabilną wersję systemu 1.0 Pro
(obecnie gemini-1.0-pro-002)
Ogólna dostępność 2024-02-15 ---

Obsługiwane języki

  • Wszystkie modele Gemini mogą rozumieć i reagować na następujące języki:

    arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), angielski (en), estoński (et), fiński (fi), duński (da), niderlandzki (nl), francuski (fr), grecki (de), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), włoski (it), japoński (ja), koreański (ko), łotewski (lv), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), hiszpański (es), suahili (sw), szwedzki (sv), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)

  • Gemini 1.5 Pro i Gemini 1.5 Flash modele rozumieją i odpowiadają w tych dodatkowych językach:

    afrikaans (af), amharski (am), asamski (as), azerski (azerski), białoruski (be), bośniacki (bs), kataloński (ca), cebuano (ceb), korsykański (co), walijski (cy), dhivehi (dv), esperanto (eo), baskijski (eu), perski (fa), filipiński (tagalski) (fil), fryzyjski (fy), irlandzki (ga), gaelicki szkocki (gd), galicyjski (gl), gudżarati (gu), hausa (ha), hawajski (haw), hmong (hmn), kreolski haitański (ht), ormiański (hy), igbo (ig), islandzki (is), jawajski (jv), gruziński (ka), kazachski (kk), khmerski (km), kannada (kn), krio (kri), kurdyjski (ku), kirgiski (ky), łaciński (la), luksemburski (lb), laotański (lo), malgaski (mg), maoryski (mi), macedoński (mk), malajalam (ml), mongolski (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malajski (ms), maltański (mt), birmański (my), nepalski (ne), nyanja (czechewa) (ny), orija (lub), pendżabski (pa), paszto (ps), sindhi (sd), syngaleski (si), samoański (sm), shona (sn), somalijski (so), albański (sq), sesotho (st), sundajski (su), tamilski (ta), telugu (te), tadżycki (tg), ujgurski (ug), urdu (ur), uzbecki (uz), xhosa (xh), jidysz (yi), joruba (yo), zulu (zu)

.

Dalsze kroki

Wypróbuj możliwości usługi Gemini API