Search: [code-ai] - Dernières news des IA Génératives

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

Anthropic a sorti une mise à jour importante de Claude 3.5 Sonnet et il obtient des résultats impressionnant sur les benchmark !

Il dépasse GPT4-o sur la plupart des benchmarks existants et de loin mais c'est surtout sur la partie code qu'il réalise un exploit car il dépasse tous les autres modèles spécialisés sur le benchmark SWE-Bench avec 49% des tâches de réalisées.

La progression des modèles pour les tâches de programmation est vertigineuse, pour rappel en août le SOTA était Aider avec 19%

Personnellement, j'utilise uniquement Claude 3.5 Sonnet dans Cursor et c'est vrai qu'il y a une différence notable avec GPT-4o.

text-ai · code-ai

October 27, 2024 at 13:12:25 UTC · permalink

·

https://www.anthropic.com/news/3-5-models-and-computer-use

Copilot Code Generation Instructions

On peut maintenant donner des instructions custom à Github Copilot pour guider la génération.

C'est très pratique pour que le code généré suive systématiquement nos standards de code.

On peut spécifier des instructions une par une ou un fichier qui en contient plusieurs.

code-ai

October 20, 2024 at 22:19:13 UTC · permalink

·

https://code.visualstudio.com/updates/v1_93#_code-generation-instructions

Judge dismisses DMCA copyright claim in GitHub Copilot suit

Les poursuites judiciaires engagées contre GitHub pour violation de copyright par Copilot ont été abandonnées par les juges.

GitHub modifie légèrement les exemples de code par rapport aux sources originelles et c'est entre autre cette raison qui a convaincu les juges.

code-ai

July 14, 2024 at 19:12:30 UTC · permalink

·

https://www.theregister.com/2024/07/08/github_copilot_dmca/

Announcing Code Assistant Supermaven 1.0

Supermaven propose un assistant code comme Copilot.

Supermaven possède so propre modèle (Babble) et se démarque sur plusieurs points:

Fenêtre de 1 millions de token
Latence de 250 ms au lieu de 800ms pour Copilot
Prédiction à chaque frappe du clavier

Ils ont testé le modèle sur des benchmark de type “needle in a haystack” et il est capable de retrouver correctement les informations même dans 1 millions de tokens !

Je l’utilise depuis quelques semaines et c’est un sérieux concurrent à Copilot.

Certaines choses sont néanmoins moins bien, par exemple Supermaven raisonne beaucoup moins bien que Copilot (GPT-3.5 ou GPT-4).

code-ai

July 8, 2024 at 16:33:46 UTC · permalink

·

https://supermaven.com/blog/announcing-supermaven-1.0

GitHub Copilot Extensions are all you need

Github permet maintenant de coder des extensions à Github Copilot.

Concrètement, il est possible d'utiliser les modèles utilisés par Copilot et de créer des assistants spécialisés que l'on peut ensuite solliciter dans le chat.

Il y a deux API:

Chat API: permet de s'intégrer dans le chat de Copilot
Language API: permet de faire des requêtes aux modèles basés sur GPT-3.5 et GPT-4 (le contexte maximum est de 4000 tokens)

Par exemple, l'assistant @stripe est capable d'aider un développeur à développer et debuguer une intégration Slack.
J'imagine que derrière, il y a un RAG avec la documentation à jour de Stripe.

C'est la porte ouverte à la création d'un écosystème, très bonne initiative de la part de Github à un moment ou la concurrence sur les assistant de code est rude (Supermaven par exemple)

code-ai

July 8, 2024 at 16:33:46 UTC · permalink

·

https://code.visualstudio.com/blogs/2024/06/24/extensions-are-all-you-need

Hacky repo to see what the Copilot extension sends to the server

Un travail impressionnant de reverse engineering sur le fonctionnement de l'extension Github Copilot.

Dans la partie sur le prompt engineering, on apprend notamment qu'un "token budget" est alloué à chaque prompt et que des chunks de documents potentiellement pertinents pour la génération sont ajoutés au prompt en fonction de différents scores.

La partie appel au modèle contient toutes les règles pour déclencher le modèle au meilleur moment. (par exemple juste après avoir écrit un caractère espace).

Surtout, il y a un contextual filter score qui est calculé à partir d'un simple modèle de régression local afin de déterminer si cela vaut la peine d'appeler le modèle distant.

Finalement pour la télémétrie, le point principal est un check fait par l'extension à différents intervalles (jusqu'à plusieurs minutes) pour vérifier si le code suggéré est toujours dans le code.

Bref, un très gros travail a été fait et est disponible sur le repo copilot-explorer.

Depuis cela a certainement évolué (par exemple l'utilisation de GPT-4 au lieu de Codex) car ce travail a plus d'un an maintenant.

code-ai · reverse-engineering

June 23, 2024 at 22:09:27 UTC · permalink

·

https://thakkarparth007.github.io/copilot-explorer/posts/copilot-internals.html#preventing-poor-requests-via-contextual-filter

Introducing Supermaven, the first code completion tool with a 300,000-token context window

Supermaven est un concurrent de Copilot pour la génération de code dans l'IDE des développeurs.

C'est le créateur de Tabnine, qui propose ce genre de solutions depuis 2018 (!), qui a développé Supermaven.

Leur parti pris c'est d'entrainer des modèles plus petits et plus spécialisés que GPT-4 pour pouvoir les utiliser virtuellement à chaque lettre écrite.

Ils ont donc développé leur propre solution en utilisant un modèle entrainé par leur soins:

fenêtre de contexte de 300 000 tokens
utilisation de la majorité du code d'un repo pour la suggestion
latence faible (250ms annoncées vs ~800 pour Copilot)

Pour moi, des insights donné le plus intéressant est leur utilisation des séquences d'éditions plutôt que des fichiers. C'est à dire qu'ils considèrent l'enchainement des éditions faites par l'utilisateur (renommer des variables, écrire 2 lignes, supprimer 1 ligne, etc)

Je l'ai essayé et même en version gratuite c'est bluffant car les complétions sont instantanés et d'une qualité comparable à Copilot.

code-ai

June 23, 2024 at 22:09:27 UTC · permalink

·

https://supermaven.com/blog/introducing-supermaven

Codestral: Hello, World!

Mistral sort un modèle spécialisé dans la génération de code.

Côté Open Source, il offrirait les meilleurs performances pour le moment avec de meilleurs résultats que CodeLlama et DeepSeek Coder (le précédent SOTA).

Il est disponible dans le cloud de Mistral (La Plateforme) et une intégration est prévue avec TabNine par exemple.

Niveau Open Source, il y a du nouveau avec une release sous la nouvelle licence Mistral AI Non-Production License qui restreint le modèle à une utilisation non commerciale.

Concrètement, Codestral sera payant si vous comptez l'utiliser dans un produit que vous revendez à des utilisateurs.

code-ai

June 9, 2024 at 10:26:16 UTC · permalink

·

https://mistral.ai/news/codestral/

Debunking Devin: "First AI Software Engineer" Upwork lie exposed!

Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.

Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (head -n 5 file.json | tail -n 5)

Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.

Bref encore une fois les Agents complètement autonomes restent très décevants.

code-ai

April 13, 2024 at 23:04:05 UTC · permalink

·

https://youtube.com/watch?v=tNmgmwEtoWE

auto-code-rover: Autonomous program improvement

Un autre Agent capable de résoudre des issues GitHub.

Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench résolues

code-ai

April 10, 2024 at 23:03:51 UTC · permalink

·

https://github.com/nus-apr/auto-code-rover

GitHub’s latest AI tool can automatically fix code vulnerabilities

Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.

Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.

A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc

Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4

code-ai

April 7, 2024 at 19:31:14 UTC · permalink

·

https://techcrunch.com/2024/03/20/githubs-latest-ai-tool-that-can-automatically-fix-code-vulnerabilities/?guccounter=1

princeton-nlp/SWE-agent: SWE-agent takes a GitHub issue and tries to automatically fix it, using GPT-4, or your LM of choice. It solves 12.29% of bugs in the SWE-bench evaluation set and takes just 1.5 minutes to run.

Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.

Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)

On est pas encore au niveau d'un développeur junior mais ça progresse.

code-ai

April 7, 2024 at 19:31:14 UTC · permalink

·

https://github.com/princeton-nlp/SWE-agent

Devin, IA software engineer

Un Agent semi autonome capable de réaliser des tâches sur des codebases complexes.

Ses capacités d'adaptation à de nouvelles technologies semblent impressionnante, à voir si ça se confirme autrement que dans des vidéos.

Il obtient plus de 13% sur le SWE benchmark qui évalue les Agents sur des tâches de programmation. C'est moi devant le Claude 2 qui était devant jusqu'ici avec 4%

code-ai · assistant-ai

April 7, 2024 at 19:31:12 UTC · permalink

·

https://www.cognition-labs.com/blog

Marblism - Generate entire App

Un Agent capable de générer des applications entières avec frontend, backend et database.

Ils annoncent qu'il y aura des retouches manuelles à faire bien sur mais aussi qu'il est possible d'itérer avec un Agent sur chaque page.

Les pages doivent être déclarés avec toutes leurs Users Stories (As an User ....)

code-ai

April 7, 2024 at 19:31:11 UTC · permalink

·

https://dev.marblism.com/

Researchers say generative AI isn't replacing devs any time soon | LeadDev

C'est ce qui se dessine après 1 an de GPT4, même si les LLMs sont impressionnant, le développement est une tâche tellement complexe que les développeurs ne sont pas près d'être remplacés.

En même temps vu la "fenêtre de contexte" qu'il faut gérer lorsqu'on maintient une application, ça ne m'étonne pas que les LLMs avec leur petite fenêtre de contexte assez imprécise ne soient pas capable de remplacer les développeurs.

Les LLMs continueront d'être des copilotes mais ils ne sont pas près d'être des pilotes.

code-ai

January 30, 2024 at 23:02:34 UTC · permalink

·

https://leaddev.com/tech/researchers-say-generative-ai-isnt-replacing-devs-any-time-soon

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering

Une solution de génération de code qui s'inspire grandement de AlphaCode de Google.

Les problèmes sont des exercices de code (code contest), ce sont des problèmes d'algorithmie ayant peu de rapport avec le quotidien d'un développeur.

Fonctionnement:

génération de tests supplémentaires
génération de solutions possibles
exécution de chaque solution
correction éventuelle

C'est plus ou moins du bruteforce

code-ai

January 19, 2024 at 23:02:52 UTC · permalink

·

https://github.com/Codium-ai/AlphaCodium

Tusk | AI Engineer for Your Product Team

Un autre Agent capable d'écrire du code frontend simple.

Ils proposent un système de ticketing ou des product manager peuvent décrire leurs tickets pour qu'ils soient réalisés par les Agents.

code-ai

January 4, 2024 at 23:02:58 UTC * · permalink

·

https://usetusk.ai/

Sweep: turn bugs and feature requests into code changes.

Un Agent LLM qui est capable d'exécuter de petites fonctionnalités dans une codebase.

code-ai

January 3, 2024 at 23:03:11 UTC * · permalink

·

https://sweep.dev/

E2B: Cloud Runtime for AI Agents

Un runtime qui permet d'exécuter du code de manière sécurisé dans une sandbox.

Le projet a été pensé pour exécuter le code en provenance d'Agents LLM.

code-ai

January 3, 2024 at 23:03:11 UTC * · permalink

·

https://github.com/e2b-dev/E2B

leetcode-hard-gym: A hard gym for programming

Un dataset de problème de code avec un outil d'évaluation automatique.

Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.

code-ai · evaluation-ai

December 28, 2023 at 23:03:02 UTC * · permalink

·

https://github.com/GammaTauAI/leetcode-hard-gym