Сьогодні світ перебуває в епосі глобальної конкуренції за створення найкращих базових моделей. Хоча обчислювальні потужності та архітектура моделей важливі, справжнім захисним валом є навчальні дані. У цій статті ми поговоримо про Scale AI і розглянемо потенціал AI-даних.
Шлях до успіху Scale AI
Scale AI наразі оцінюється в 29 мільярдів доларів, його клієнтами є американські збройні сили та кілька конкурентних гігантів у галузі ШІ. Основний бізнес Scale AI полягає в наданні великої кількості точних анотацій даних, і він зміг виділитися серед багатьох юнікорнів, оскільки рано усвідомив важливість даних у галузі ШІ.
Обчислювальна потужність, моделі та дані є трьома основними стовпами AI-моделей. У процесі швидкого розвитку великих мовних моделей акцент у розвитку індустрії змінювався від моделей до обчислювальної потужності. Сьогодні більшість моделей вже закріпили transformer як модельну структуру, а великі гравці вирішили проблему обчислювальної потужності, створивши власні суперкомп'ютерні кластери або уклавши довгострокові угоди з постачальниками хмарних послуг. У цих умовах важливість даних поступово зростає.
Scale AI не тільки прагне видобувати існуючі дані, але й звертає увагу на більш довгостроковий бізнес з генерації даних. Вона формує команди AI-тренерів, що складаються з експертів з різних областей, щоб забезпечити якісніші тренувальні дані для навчання AI-моделей.
Два етапи навчання моделей штучного інтелекту
Навчання AI-моделей ділиться на дві частини: попереднє навчання та тонке налаштування.
Етап попереднього навчання подібний до процесу, в якому людські немовлята вчаться говорити. Нам потрібно ввести в модель AI велику кількість тексту, коду та іншої інформації, зібраної з Інтернету, щоб модель могла навчитися основним комунікативним навичкам шляхом самонавчання.
Етап тонкого налаштування подібний до шкільної освіти, де є чіткі правильні та неправильні відповіді та напрямки. За допомогою деяких заздалегідь підготовлених, цілеспрямованих наборів даних ми можемо виховати модель, щоб вона набула специфічних здібностей.
Отже, дані, необхідні для навчання ШІ, поділяються на два типи:
Великі обсяги даних, які не потребують значної обробки, зазвичай надходять з великих платформ UGC, даних, зібраних пауками, відкритих баз даних літератури, приватних баз даних компаній тощо.
Потрібні ретельно спроектовані та відібрані дані, подібно до професійних підручників, потрібно виконати очищення даних, відбір, маркування, ручний зворотний зв'язок та інші роботи.
Ці два типи наборів даних складають основну частину AI-даних. З подальшим підвищенням можливостей моделей різноманітні більш детальні та спеціалізовані тренувальні дані стануть ключовими чинниками впливу на можливості моделей.
Web3 DataFi: Ідеальний ґрунт для AI даних
У порівнянні з традиційними методами обробки даних, Web3 має природні переваги в сфері AI даних, внаслідок чого виникла нова концепція DataFi. Переваги Web3 DataFi головним чином виявляються в наступних аспектах:
Смарт-контракти забезпечують суверенітет даних, безпеку та конфіденційність
Географічні арбітражні переваги, що виникають із розподіленої архітектури
Чіткі переваги стимулювання та розрахунків у блокчейні
Сприяє створенню більш ефективного та відкритого "одного вектору" ринку даних
Для звичайних користувачів DataFi є найпростішим децентралізованим AI проектом для участі. Користувачам не потрібно підписувати складні контракти або вкладати дорогі апаратні засоби, достатньо просто виконати прості завдання, такі як надання даних, оцінка моделей, використання AI інструментів для простого створення тощо.
Потенційні проєкти Web3 DataFi
На сьогоднішній день кілька проектів Web3 DataFi отримали великі інвестиції, що свідчить про величезний потенціал цієї сфери. Нижче наведені деякі репрезентативні проекти:
Sahara AI: прагне створити суперінфраструктуру та торговельний ринок для децентралізованого ШІ.
Yupp: Платформа зворотного зв'язку для AI моделей, яка збирає відгуки користувачів про вивід моделі.
Vana: Перетворення особистих даних користувачів у цифрові активи, які можна монетизувати.
Chainbase: зосереджений на даних блокчейну, охоплює понад 200 блокчейнів.
Sapien: спроектований для масового перетворення людських знань на високоякісні дані для навчання ШІ.
Prisma X: прагне стати відкритим координаційним рівнем для роботів, фізичне збори даних є його ключовим.
Masa: провідний підпроект екосистеми Bittensor, що управляє підмережею даних і підмережею агентів.
Irys: зосереджено на програмованому зберіганні даних і обчисленнях.
ORO: надання можливості звичайним людям брати участь у внесках в AI.
Gata: позиціюється як децентралізований рівень даних, що пропонує різні способи участі.
Роздуми про поточний проект
Наразі бар'єри для цих проектів загалом не високі, але як тільки буде накопичено користувачів і екосистемна прихильність, переваги платформи швидко накопичаться. Тому ранні проекти повинні зосередитися на стимулюванні та досвіді користувачів.
Водночас ці платформи даних також повинні враховувати, як управляти людським ресурсом, забезпечувати якість даних, щоб уникнути явища витіснення добрих грошей поганими. Деякі проекти, такі як Sahara та Sapien, вже почали посилювати управління якістю даних.
Крім того, підвищення прозорості є важливою проблемою, з якою стикаються нинішні проекти на блокчейні. Багато проектів все ще не мають достатньої кількості відкритих, відслідковуваних даних, що негативно позначається на довгостроковому здоровому розвитку Web3 DataFi.
Нарешті, масштабне впровадження DataFi потребує одночасного залучення достатньої кількості індивідуальних учасників і отримання визнання від основних підприємств. Деякі проекти, такі як Sahara AI та Vana, вже досягли непоганих успіхів у цьому плані.
DataFi представляє собою довгострокові відносини співіснування людського інтелекту та машинного інтелекту. Для тих, хто з нетерпінням чекає на епоху ШІ, але також має побоювання, участь у DataFi може стати вдалим вибором.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
14 лайків
Нагородити
14
4
Поділіться
Прокоментувати
0/400
ReverseFOMOguy
· 3год тому
Знову почали розповідати про DataFi.
Переглянути оригіналвідповісти на0
CryptoCross-TalkClub
· 3год тому
Ага, нарешті почали обдурювати людей, як лохів, з AI, минулого разу Метавсесвіт, цього разу нова історія.
DataFi: Нові можливості епохи штучного інтелекту. Як Web3 веде за собою дані.
З точки зору AI-даних, потенціал розвитку DataFi
Сьогодні світ перебуває в епосі глобальної конкуренції за створення найкращих базових моделей. Хоча обчислювальні потужності та архітектура моделей важливі, справжнім захисним валом є навчальні дані. У цій статті ми поговоримо про Scale AI і розглянемо потенціал AI-даних.
Шлях до успіху Scale AI
Scale AI наразі оцінюється в 29 мільярдів доларів, його клієнтами є американські збройні сили та кілька конкурентних гігантів у галузі ШІ. Основний бізнес Scale AI полягає в наданні великої кількості точних анотацій даних, і він зміг виділитися серед багатьох юнікорнів, оскільки рано усвідомив важливість даних у галузі ШІ.
Обчислювальна потужність, моделі та дані є трьома основними стовпами AI-моделей. У процесі швидкого розвитку великих мовних моделей акцент у розвитку індустрії змінювався від моделей до обчислювальної потужності. Сьогодні більшість моделей вже закріпили transformer як модельну структуру, а великі гравці вирішили проблему обчислювальної потужності, створивши власні суперкомп'ютерні кластери або уклавши довгострокові угоди з постачальниками хмарних послуг. У цих умовах важливість даних поступово зростає.
Scale AI не тільки прагне видобувати існуючі дані, але й звертає увагу на більш довгостроковий бізнес з генерації даних. Вона формує команди AI-тренерів, що складаються з експертів з різних областей, щоб забезпечити якісніші тренувальні дані для навчання AI-моделей.
Два етапи навчання моделей штучного інтелекту
Навчання AI-моделей ділиться на дві частини: попереднє навчання та тонке налаштування.
Етап попереднього навчання подібний до процесу, в якому людські немовлята вчаться говорити. Нам потрібно ввести в модель AI велику кількість тексту, коду та іншої інформації, зібраної з Інтернету, щоб модель могла навчитися основним комунікативним навичкам шляхом самонавчання.
Етап тонкого налаштування подібний до шкільної освіти, де є чіткі правильні та неправильні відповіді та напрямки. За допомогою деяких заздалегідь підготовлених, цілеспрямованих наборів даних ми можемо виховати модель, щоб вона набула специфічних здібностей.
Отже, дані, необхідні для навчання ШІ, поділяються на два типи:
Великі обсяги даних, які не потребують значної обробки, зазвичай надходять з великих платформ UGC, даних, зібраних пауками, відкритих баз даних літератури, приватних баз даних компаній тощо.
Потрібні ретельно спроектовані та відібрані дані, подібно до професійних підручників, потрібно виконати очищення даних, відбір, маркування, ручний зворотний зв'язок та інші роботи.
Ці два типи наборів даних складають основну частину AI-даних. З подальшим підвищенням можливостей моделей різноманітні більш детальні та спеціалізовані тренувальні дані стануть ключовими чинниками впливу на можливості моделей.
Web3 DataFi: Ідеальний ґрунт для AI даних
У порівнянні з традиційними методами обробки даних, Web3 має природні переваги в сфері AI даних, внаслідок чого виникла нова концепція DataFi. Переваги Web3 DataFi головним чином виявляються в наступних аспектах:
Для звичайних користувачів DataFi є найпростішим децентралізованим AI проектом для участі. Користувачам не потрібно підписувати складні контракти або вкладати дорогі апаратні засоби, достатньо просто виконати прості завдання, такі як надання даних, оцінка моделей, використання AI інструментів для простого створення тощо.
Потенційні проєкти Web3 DataFi
На сьогоднішній день кілька проектів Web3 DataFi отримали великі інвестиції, що свідчить про величезний потенціал цієї сфери. Нижче наведені деякі репрезентативні проекти:
Sahara AI: прагне створити суперінфраструктуру та торговельний ринок для децентралізованого ШІ.
Yupp: Платформа зворотного зв'язку для AI моделей, яка збирає відгуки користувачів про вивід моделі.
Vana: Перетворення особистих даних користувачів у цифрові активи, які можна монетизувати.
Chainbase: зосереджений на даних блокчейну, охоплює понад 200 блокчейнів.
Sapien: спроектований для масового перетворення людських знань на високоякісні дані для навчання ШІ.
Prisma X: прагне стати відкритим координаційним рівнем для роботів, фізичне збори даних є його ключовим.
Masa: провідний підпроект екосистеми Bittensor, що управляє підмережею даних і підмережею агентів.
Irys: зосереджено на програмованому зберіганні даних і обчисленнях.
ORO: надання можливості звичайним людям брати участь у внесках в AI.
Gata: позиціюється як децентралізований рівень даних, що пропонує різні способи участі.
Роздуми про поточний проект
Наразі бар'єри для цих проектів загалом не високі, але як тільки буде накопичено користувачів і екосистемна прихильність, переваги платформи швидко накопичаться. Тому ранні проекти повинні зосередитися на стимулюванні та досвіді користувачів.
Водночас ці платформи даних також повинні враховувати, як управляти людським ресурсом, забезпечувати якість даних, щоб уникнути явища витіснення добрих грошей поганими. Деякі проекти, такі як Sahara та Sapien, вже почали посилювати управління якістю даних.
Крім того, підвищення прозорості є важливою проблемою, з якою стикаються нинішні проекти на блокчейні. Багато проектів все ще не мають достатньої кількості відкритих, відслідковуваних даних, що негативно позначається на довгостроковому здоровому розвитку Web3 DataFi.
Нарешті, масштабне впровадження DataFi потребує одночасного залучення достатньої кількості індивідуальних учасників і отримання визнання від основних підприємств. Деякі проекти, такі як Sahara AI та Vana, вже досягли непоганих успіхів у цьому плані.
DataFi представляє собою довгострокові відносини співіснування людського інтелекту та машинного інтелекту. Для тих, хто з нетерпінням чекає на епоху ШІ, але також має побоювання, участь у DataFi може стати вдалим вибором.