صفحه اصلی > اخبار : بهبود استدلال، ویژگی‌های صوتی و پشتیبانی چندزبانه در هوش مصنوعی «گوگل»

بهبود استدلال، ویژگی‌های صوتی و پشتیبانی چندزبانه در هوش مصنوعی «گوگل»

بهبود استدلال، ویژگی‌های صوتی و پشتیبانی چندزبانه در هوش مصنوعی «گوگل» | d8a8d987d8a8d988d8af d8a7d8b3d8aad8afd984d8a7d984d88c d988db8cda98daafdb8cd987d8a7db8c d8b5d988d8aadb8c d988 d9bed8b4d8aadb8cd8a8 682daa0b95535

مدل «جمینای ۲.۵ پرو» تنظیمات جدیدی را برای بهبود استدلال، ویژگی‌های صوتی و پشتیبانی چندزبانه دریافت کرد.

گوگل در کنفرانس «Google I/O 2025» از به‌روزرسانی‌های جدیدی برای مجموعه مدل‌های «جمینای ۲.۵»(Gemini 2.5) خود رونمایی کرد که شامل استدلال قوی‌تر، خروجی صدای بومی، ارتقاء امنیت و قابلیت‌های بهبودیافته برای توسعه‌دهندگان است. گوگل در اعلام به‌روزرسانی‌های جدید گفت: ما در ماه مارس «جمینای ۲.۵ پرو»(Gemini 2.5 Pro) را معرفی کردیم که هوشمندترین مدل ما تا به امروز است و امروز، قابلیت‌های جدیدی را به ۲.۵ پرو و «۲.۵ فلش»(2.5 Flash) اضافه می‌کنیم.

به نقل از تایمز آو ایندیا، مدل ارتقاءیافته جمینای ۲.۵ پرو اکنون در صدر نمودارهای عملکرد از جمله «WebDev Arena» برای کدنویسی و «LMArena» برای آزمایش ترجیحات انسانی قرار دارد. همچنین، این مدل دارای یک پنجره زمینه با یک میلیون توکن است که به آن امکان می‌دهد تا ورودی‌های طولانی‌تر و وظایف درک ویدئو را مدیریت کند.

گوگل اعلام کرد: به لطف «LearnLM» – نسخه‌ای از جمینای که با متخصصان آموزشی توسعه داده شده – این مدل اکنون در وظایف مرتبط با یادگیری نیز پیشرو است. مربیان و متخصصان، جمینای ۲.۵ پرو را در طیف متنوعی از سناریوها نسبت به سایر مدل‌ها ترجیح دادند.

صدای بومی، گفت‌وگوی احساسی و پشتیبانی چندزبانه

گوگل خروجی صدای بومی را نیز برای داشتن یک تجربه طبیعی‌تر با هوش مصنوعی معرفی کرد. جمینای اکنون می‌تواند با تُن‌ها، لهجه‌ها و سبک‌های گوناگون صحبت کند. برای مثال، هنگام تعریف کردن یک داستان می‌تواند صدای دراماتیک داشته باشد. موارد دیگر بهبود صوتی به شرح زیر هستند:

۱. احساسات کاربر را تشخیص می‌دهد و بر اساس آنها پاسخ می‌دهد (گفتگوی عاطفی).

۲. نویز پس‌زمینه را نادیده می‌گیرد (صدای فعال).

۳. وظایف صوتی پیچیده‌تر را انجام می‌دهد (تفکر در API زنده).

سیستم تبدیل متن به گفتار اکنون از چندین گوینده و بیش از ۲۴ زبان پشتیبانی می‌کند و می‌تواند هنگام گفت‌وگو بین زبان‌ها جابه‌جا شود. این ویژگی‌ها از طریق رابط برنامه‌نویسی جمینای در دسترس خواهند بود.

تفکر عمیق برای کارهای پیچیده

گوگل اعلام کرد که در حال آزمایش یک حالت استدلال پیشرفته به نام «تفکر عمیق» است که به جمینای کمک می‌کند تا پیش از پاسخ دادن، چندین پاسخ را در نظر بگیرد. این حالت برای چالش‌های دشواری مانند ریاضیات پیشرفته و برنامه‌نویسی طراحی شده است.

سخنگوی این شرکت گفت: ما در حال آغاز کردن آزمایش یک حالت استدلال بهبودیافته به نام «دیپ ثینک»(Deep Think) هستیم. ما زمان بیشتری را به ارزیابی‌های ایمنی پیشرفته‌تر و دریافت نظرات بیشتر از متخصصان ایمنی اختصاص می‌دهیم.

دیپ ثینک در حال حاضر در معیارهایی مانند «2025 USAMO» برای ریاضی، «LiveCodeBench» برای کدنویسی و «MMMU» برای استدلال چندوجهی پیشرو است.

افزایش سرعت و کارآیی جمینای ۲.۵ فلش

این شرکت اعلام کرد جمینای ۲.۵ فلش که نسخه سبک‌تر مدل است، اکنون از ۲۰ تا ۳۰ درصد توکن کمتر استفاده می‌کند و در عین حال، استدلال، کدنویسی و وظایف چندوجهی را بهبود می‌بخشد. این نسخه اکنون در اپلیکیشن جمینای و پلتفرم‌های «ای‌آی استودیو»(AI Studio) و «ورتکس ای‌آی»(Vertex AI) در دسترس است.

انتظار می‌رود نسخه عمومی مدل به‌روزرسانی‌شده در اوایل ژوئن عرضه شود و نسخه ۲.۵ پرو نیز اندکی پس از آن از راه برسد.

پست های مرتبط

جزئیات معاهده مشارکت جامع راهبردی ایران و روسیه به تصویب رسید

نمایندگان مجلس شورای اسلامی با تصویب جزئیات معاهده مشارکت جامع راهبردی بین…

31 اردیبهشت 1404

همکاری ۱۵۰ میلیون دلاری «گوگل» برای توسعه عینک هوش مصنوعی

«گوگل » مبلغ ۱۵۰ میلیون دلار را به توسعه عینک هوش مصنوعی…

31 اردیبهشت 1404

گوگل تماس تصویری ۳ بُعدی را محقق کرد

شرکت گوگل در رویداد جدید خود به انتظارها پایان داد و قابلیت…

31 اردیبهشت 1404

دیدگاهتان را بنویسید