Существующие LLM, такие как GPT, Claude и другие, достигли своего предела, они уже собрали все данные из открытого интернета и открытых данных.
Остальное — это частный контент с разрешением пользователя, который находится внутри приложений и не может быть просто собран таким образом. Эти данные гораздо более ценны и качественны, но защищены авторским правом и должны быть доступны легитимно.
Вы, вероятно, слышали «ты то, что ты ешь», то же самое относится и к ИИ: что отличает хорошие модели от плохих, так это качество данных, на которых они обучены.
Будущие модели будут полагаться на надежные,
Посмотреть Оригинал