Firma ogłasza, że jej agentowy AI, Gemini 2.0 Flash, jest teraz ogólnie dostępny. Będą też aktualizacje dotyczące innych modeli AI.
Jeśli chodzi o rozwój AI, Google był zajęty. W grudniu 2024 roku firma ogłosiła Gemini 2.0, swoją rodzinę modeli AI nowej generacji zbudowanych na erę agentową AI i szybko udostępniła je deweloperom i zaufanym testerom za pośrednictwem eksperymentalnego modelu Gemini 2.0 Flash.
Od tego czasu wprowadziła nową funkcję, Deep Research, która wykorzystuje zaawansowane rozumowanie i długie możliwości kontekstowe, aby działać jako zaufany asystent badawczy, zaktualizowała ulepszony model myślenia 2.0 Flash Thinking Experimental i zasugerowała silne ambicje AI na nadchodzący rok podczas rozmowy o wynikach z CEO Sundarem Pichai.
Gemini 2.0 Flash jest teraz ogólnie dostępny za pośrednictwem Gemini API w Google AI Studio i Vertex AX, co oznacza, że deweloperzy mogą teraz zacząć budować aplikacje z tą technologią. Według bloga Google, ma on lepszą wydajność w kluczowych testach i wkrótce będzie oferować generowanie obrazów i zamianę tekstu na mowę.
W tym samym ogłoszeniu Google powiedział, że wypuszcza również eksperymentalną wersję Gemini 2.0 Pro, swojego modelu do wydajności kodowania i złożonych zapytań oraz wprowadza nowy model, Gemini 2.0 Flash-Lite. Jest to duży model językowy mający na celu dostarczanie opłacalnej AI bez kompromisów w jakości.
Na koniec firma powiedziała również, że jej ulepszony model rozumowania Gemini 2.0 Flash Thinking będzie dostępny dla użytkowników aplikacji Gemini na komputerach stacjonarnych i mobilnych. CTO Google DeepMind Koray Kavukcuoglu powiedział w ogłoszeniu na blogu: „Wszystkie te modele będą miały wejście multimodalne z wyjściem tekstowym przy wydaniu, z większą liczbą modalności gotowych do ogólnej dostępności w nadchodzących miesiącach.”
Czytaj też: Pixel w Polsce
Gemini 2.0: umożliwienie uniwersalnego asystenta
Rodzina Gemini 2.0 jest zbudowana specjalnie na erę agentową – Google opisuje Flash jako swój „model roboczy” z niskim opóźnieniem i ulepszoną wydajnością na czołówce swojej technologii.
Podczas premiery pod koniec 2024 roku CEO Google i Alphabet Sundar Pichai powiedział: „W ciągu ostatniego roku inwestowaliśmy w rozwijanie bardziej agentowych modeli, co oznacza, że mogą one lepiej rozumieć świat wokół ciebie, myśleć kilka kroków naprzód i działać w twoim imieniu, pod twoim nadzorem.”

Pichai wspomniał o możliwościach Gemini 2.0, wyjaśniając: „Dzięki nowym postępom w multimodalności — takim jak natywne wyjście obrazów i dźwięku — oraz natywnemu użyciu narzędzi, umożliwi nam to budowanie nowych agentów AI, które przybliżą nas do naszej wizji uniwersalnego asystenta.”
Wspomniał o Gemini 1.0, pierwszym modelu Gemini, który przyczynił się do postępów w rozumieniu informacji w tekście, wideo, obrazach i kodzie, i powiedział, że „jeśli Gemini 1.0 dotyczył organizowania i rozumienia informacji, Gemini 2.0 dotyczy uczynienia ich znacznie bardziej użytecznymi.”
Sprawdź też: USB Power Delivery
Podróż AI Google
Pichai omówił przyszłe ambicje AI firmy podczas rozmowy o wynikach Alphabet Inc. we wtorek 4 lutego, stwierdzając, że Google Search jest w trakcie „podróży” wokół AI.
Powiedział, że silna wydajność Alphabet w ostatnim kwartale 2024 roku była napędzana przez jego przywództwo w AI, przedstawiając trzy kluczowe obszary swojego zróżnicowanego podejścia do technologii: wiodącą infrastrukturę AI, światowej klasy zdolności badawcze oraz produkty i platformy, które wykorzystuje do wprowadzania innowacji na dużą skalę.
Podczas rozmowy Pichai wspomniał o zamiarach wspierania wyszukiwania funkcjami AI z laboratorium badawczego firmy, DeepMind, i odniósł się do multimodalnego systemu AI laboratorium, Project Astra. Jest on zdolny do przetwarzania wideo na żywo z ekranu komputera lub kamery i odpowiadania na pytania użytkowników dotyczące tego, co AI widzi w czasie rzeczywistym.
Pichai powiedział uczestnikom rozmowy: „Ponieważ AI nadal rozszerza wszechświat zapytań, które ludzie mogą zadawać, 2025 rok będzie jednym z największych lat dla innowacji w wyszukiwaniu.”