Макет мультимодальної великомасштабної моделі: команда Університету Цінхуа завершила фінансування майже 100 мільйонів юанів під керівництвом Ant

Автор: The Paper

Репортер Шао Вень

Компанія Shengshu Technology була заснована в березні 2023 року. Основні члени в основному зі Школи штучного інтелекту Університету Цінхуа. Це одна з перших команд у Китаї, яка розгортає мультимодальні загальні великомасштабні моделі. Цей раунд фінансування очолила Ant Group, за нею Baidu Ventures і Zhuoyuan Capital. Поточна оцінка становить 100 мільйонів доларів США.

З'явилися нові тенденції розвитку вітчизняних мультимодальних великогабаритних моделей. 19 червня нова команда під керівництвом Чжу Цзюня, професора інформатики в Університеті Цінхуа та віце-президента Інституту штучного інтелекту, завершила раунд фінансування майже 100 мільйонів юанів.

Pengpai Technology (я дізнався, що ця мультимодальна великомасштабна стартап-компанія під назвою Beijing Shengshu Technology Co., Ltd. (далі — «Shengshu Technology») оголосила про завершення ангельського раунду фінансування на суму майже 100 мільйонів юанів. Інвестиції очолила Ant Group. За нею йдуть Baidu Ventures і Zhuoyuan Capital, поточна оцінка становить 100 мільйонів доларів США. Цей раунд фінансування буде в основному використано для створення основної команди науково-дослідних робіт і прискорення розвитку мультимодальних великих -масштабні моделі та аплікаційні вироби.

Багатомодальна велика модель відноситься до моделі, яка поєднує мультимодальну інформацію, таку як текст, зображення, відео та аудіо для навчання. Раніше співзасновник OpenAI Ілля Суцкевер (Ilya Sutskever) заявив: «Довгострокова мета штучного інтелекту полягає в тому, щоб побудувати мультимодальну нейронну мережу, тобто штучний інтелект може вивчати концепції між різними модальностями, щоб краще розуміти світ». .​

Генерація зображень підтримується моделлю Shengshu.

Shengshu Technology була заснована в березні 2023 року. Її спільно інкубували Beijing Ruilai Smart Technology Co., Ltd., Ant Group і Baidu Venture Capital. Тан Цзяюй, колишній віце-президент Ruilai Smart і закінчив комп’ютерний факультет університету Цінхуа, служив Використовується для створення керованої мультимодальної великої моделі загального призначення. Повідомляється, що це перший випадок, коли Ant Group інвестувала у масштабну модельну компанію після популярності ChatGPT, і це також друге підприємство Чжу Цзюня після Ruilai Wisdom. Ruilai Wisdom є постачальником інфраструктури та рішень штучного інтелекту.

Основні члени команди Shengshu Technology походять з Інституту штучного інтелекту Університету Цінхуа, в основному це дослідницька група під керівництвом Чжу Цзюня. Дослідницька група займається базовою теорією та ефективним дослідженням алгоритмів байєсівського машинного навчання та є однією з перших у світі команд, які вивчають глибокі ймовірнісні генеративні моделі. У січні 2022 року OpenAI застосував запропоновану командою структуру міркування без навчання Analytic-DPM до стратегії обробки моделі DALL E 2. Після цього було запропоновано алгоритм вибірки DPM-Solver, який зараз є найшвидшим у світі способом генерації зображень. алгоритм від Stable Diffusion та інші великі кількості прийнятих проектів з відкритим кодом.

Змініть елементи екрану у відео (підказка: кришталевий лебідь Swarovski плаває в річці), оригінальне відео в крайньому лівому куті, ефект цифрової технології в середині та ефект Runway в крайньому правому куті.

Згідно з повідомленнями, Shengshu Technology є однією з перших команд у Китаї, яка розробила мультимодальні великомасштабні моделі загального призначення.На початку 2023 року вона відкрила вихідний код першої в світі мультимодальної великомасштабної моделі UniDiffuser на основі трансформатора. Виконуйте різні завдання генерації, наприклад генерування тексту на основі зображень, спільне генерування зображення-тексту та переписування зображення-тексту.

Модель Transformer була запущена командою Google у 2017 році. Це модель глибокого навчання, яка може призначати різні ваги відповідно до важливості кожної частини вхідних даних. Ця модель в основному використовується в області обробки природної мови (NLP) і комп'ютерного зору (CV). В даний час основні великі моделі, такі як GPT, розроблені на основі Transformer.

«Загалом, поточна ідея створення великомасштабних моделей генерації зображень у галузі однакова, і всі вони базуються на моделі дифузії. Наша інновація полягає в модифікації основної мережі. Це Перший, хто використав Transformer у технології дифузійної моделі для досягнення багаторежимного відношення", - сказав Тан Цзяюй нещодавно в інтерв'ю ЗМІ.

Тан Цзяюй вважає, що моделі та продукти на ринку на даному етапі вирішують лише проблему генерації на початковому етапі, але отримані результати все ще мають велику невизначеність і неконтрольованість.Все ще є великі недоліки, наприклад, важко точно визначити контролювати положення та деталі елементів у створеному зображенні, а створена 3D-модель все ще знаходиться на відносно низькому рівні з точки зору тонкості поверхні та точності кольору, світла та тіні.

Генерація 3D-контенту (підказка: фотографія блакитної сойки, яка стоїть на великому кошику з райдужними макаронами, на DSLR).

Shengshu Technology представила Pengpai Technology, що з точки зору генерації 3D-контенту, вона розробила першу в галузі технологію автоматичного генерування 3D-контенту на основі трьох переглядів, а також технологію Wensheng 3D-контенту, яка не потребує жодних навчальних даних 3D, і ефект може бути дрібно деталізований , може бути наближений до додатків промислового рівня, «Навчена велика модель перевершила останню версію базової моделі Stable Diffusion з точки зору генерації зображень і, як очікується, наздожене останню версію Midjourney протягом цього року ."

Stable Diffusion — це модель генерації тексту в зображення, розроблена стартапами StabilityAI, CompVis і Runway. Вона була випущена в 2022 році і тепер має відкритий код. Midjourney — це інструмент для створення тексту в зображення, запущений у березні 2022 року. Він пройшов кілька ітерацій і перейшов на стадію публічної бета-версії. Його реалістичні ефекти викликали бурхливі дискусії в китайському Інтернеті. Як Stable Diffusion, так і Midjourney є провідними в галузі та високо оціненими в усьому світі інструментами ШІ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити