Premier retour d'expérience sur Grok-4

Pierre Siccardi
CEO et fondateur de AI Tech Leads

🚨 Premier Retour d'expérience sur Grok-4 🚨
Hier soir, porté par une vidéo de démo ultra-hype + des reviews dithyrambiques sur YouTube, j'ai voulu tester Grok-4 « en conditions réelles » sur un projet plutôt complexe.
Le test comparatif
J'ai lancé, au même instant, le même prompt (volontairement peu précis) :
⚡ Claude Code
- ~20 s de latence
- Plan d'exécution clair, étapes numérotées
🐢 Grok-4
- 7 min de latence
- Arrêt prématuré, > 50 % des tool calls en erreur
- Pas de plan exploitable
La déception
Grok-4 était censé être optimisée nativement pour les appels de tools !
Disclaimer : Il est possible que Roo-Code n'ait pas encore intégré les spécificités d'appels de tools de Grok-4.
Lessons Learned
🔍 Ne jamais se fier uniquement au buzz
Testez sur votre stack, vos contraintes.
🛠️ Instrumenter dès le POC
Logs détaillés + métriques temps/erreurs, sinon impossible de diagnostiquer.
🧩 Plan B systématique
Fallback model ou partial-parse pour éviter le blocage total si une chaîne tombe.
Conclusion
Je reste curieux de voir l'évolution de Grok-4 (le potentiel est là), mais en production aujourd'hui ? Prudence.
Publié le 10 juillet 2025