Ελέγξαμε τις δεξιότητες της κωδικοποίησης R1 και V3 Deepseek - και δεν είμαστε όλοι καταδικασμένοι (για τώρα)

Ο Deepseek εξερράγη στην παγκόσμια συνείδηση το περασμένο Σαββατοκύριακο. Ξεχωρίζει για τρεις ισχυρούς λόγους:

Αυτός είναι ένας αγώνας συνομιλίας από την Κίνα, όχι από τις ΗΠΑ
Αυτός είναι ένας κώδικας ανοιχτού κώδικα.
Χρησιμοποιεί μια πολύ μικρότερη υποδομή από τα μεγάλα εργαλεία AI που εξετάσαμε.

Δεδομένης της ανησυχίας της αμερικανικής κυβέρνησης για την Tiktok και την πιθανή συμμετοχή της κυβέρνησης της Κίνας σε αυτόν τον κώδικα, το νέο AI που εμφανίστηκε από την Κίνα θα πρέπει να προσελκύσει την προσοχή. Η Radhika Rajkumar από το ZDNET έχει βυθιστεί βαθιά σε αυτά τα ερωτήματα στο άρθρο της, γιατί η China Deepseek θα μπορούσε να σπάσει τη φούσκα του AI.

Βρήκα ένα προσιτό OLED -NOTEBK με εξαιρετικά χαρακτηριστικά για εργασία και ταξίδια – και είναι προς πώληση

April 8, 2025

Οι τεχνικοί αγοραστές των δασμών, οι οποίοι αναρωτιούνται τι θα συμβεί στη συνέχεια. Αυτό γνωρίζουμε

April 8, 2025

Επίσης: το καλύτερο AI για κωδικοποίηση το 2025 (και τι δεν πρέπει να χρησιμοποιήσετε)

Σε αυτό το άρθρο αποφεύγουμε την πολιτική. Αντ ‘αυτού, ξοδεύω τόσο Deepseek V3 όσο και Deekseek R1 μέσω του ίδιου συνόλου δοκιμών κωδικοποίησης που έριξα σε 10 άλλα μεγάλα γλωσσικά μοντέλα. Σύμφωνα με τον Deepseek:

Επιλέξτε V3 Για εργασίες που απαιτούν βάθος και ακρίβεια (για παράδειγμα, επίλυση εκτεταμένων μαθηματικών προβλημάτων, δημιουργώντας ένα σύνθετο κώδικα).
Επιλέξτε R1 Για να αποκτήσετε ευαίσθητα για καθυστέρηση, εφαρμογές με μεγάλο όγκο (για παράδειγμα, αυτοματοποίηση της υποστήριξης πελατών, βασική επεξεργασία κειμένου).

Μπορείτε να επιλέξετε μεταξύ R1 και V3 πατώντας ένα μικρό κουμπί στη διεπαφή συνομιλίας. Εάν το κουμπί είναι μπλε, χρησιμοποιείτε το R1.

Cleanshot-2025-01-28 -at-08-42-032x — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Η σύντομη απάντηση είναι: εντυπωσιακή, αλλά σαφώς δεν είναι τέλεια. Ας σκάψουμε.

Δοκιμή 1: WordPress Pligin Writing

Αυτή η δοκιμή ήταν στην πραγματικότητα ο πρώτος μου έλεγχος του προγραμματισμού ChatGPT, κατά τη διάρκεια της ημέρας. Η σύζυγός μου χρειαζόταν ένα plugin για το WordPress, το οποίο θα την βοηθήσει να ξεκινήσει μια συσκευή για να συμμετάσχει στην ηλεκτρονική ομάδα της.

Επίσης: Πώς να χρησιμοποιήσετε το chatgpt για να γράψετε κωδικό: τι κάνει καλά και τι δεν είναι

Οι ανάγκες της ήταν πολύ απλές. Ήταν απαραίτητο να δημιουργηθεί μια λίστα με ονόματα, ένα όνομα στη γραμμή. Τότε έπρεπε να ταξινομήσει τα ονόματα και αν υπήρχαν αντίγραφα ονόματα, για να τα χωρίσουν έτσι ώστε να μην αναφέρονται δίπλα -δίπλα.

Πραγματικά δεν είχα χρόνο να το κωδικοποιήσω γι ‘αυτήν, γι’ αυτό αποφάσισα να δώσω στο AI καθήκον σε μια ιδιοτροπία. Προς μεγάλη μου έκπληξη, λειτούργησε.

Από τότε, αυτό ήταν το πρώτο μου τεστ για το AIS κατά την αξιολόγηση των δεξιοτήτων προγραμματισμού τους. Αυτό απαιτεί από το AI να γνωρίζει πώς να διαμορφώσετε τον κώδικα για το FrameWork WordPress και να ακολουθήσετε τις συμβουλές σαφώς για να δημιουργήσετε τόσο τη διεπαφή χρήστη όσο και τη λογική του προγράμματος.

Cleanshot-2025-01-27-T-19-23-412x — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Μόνο περίπου το ήμισυ των δοκιμών που έχω δοκιμάσει μπορεί να περάσει εντελώς αυτή τη δοκιμή. Τώρα, όμως, μπορούμε να προσθέσουμε ένα ακόμα στον κύκλο του νικητή.

προσθήκη — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Το Deepseek V3 δημιούργησε τόσο τη διεπαφή χρήστη όσο και τη λογική του προγράμματος με τον ίδιο τρόπο όπως υποδεικνύεται. Όσο για το Deepseek R1, αυτή είναι μια ενδιαφέρουσα περίπτωση. Η πτυχή του “συλλογισμού” R1 ανάγκασε AI να φτύνει 4502 λέξεις ανάλυσης πριν από την ανταλλαγή κώδικα.

Test-4502-words-196-sec — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Η διεπαφή χρήστη φαινόταν διαφορετική, με πολύ ευρύτερες περιοχές εισόδου. Παρ ‘όλα αυτά, τόσο η διεπαφή χρήστη όσο και η λογική λειτουργούσε, οπότε το R1 περνάει και αυτή τη δοκιμή.

Cleanshot-2025-01-28 -at-08-48-002x — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Μέχρι στιγμής, οι Deepseek V3 και R1 πέρασαν μία από τις τέσσερις δοκιμές.

Δοκιμή 2: Υπολογισμός της λειτουργίας συμβολοσειράς

Ο χρήστης παραπονέθηκε ότι δεν μπορούσε να εισέλθει σε δολάρια και σεντ στον τομέα της δωρεάς. Όπως γράφτηκε, ο κώδικας μου επέτρεψε μόνο δολάρια. Έτσι, η δοκιμή περιλαμβάνει την παροχή τεχνητής νοημοσύνης που έγραψα και του ζήτησα να ξαναγράψει για να επιλύσει και τα δύο δολάρια και σεντς

Επίσης: η αγαπημένη μου λειτουργία chatgpt έχει γίνει πολύ πιο ισχυρή

Συνήθως αυτό οδηγεί στο γεγονός ότι το AI δημιουργεί έναν συγκεκριμένο κώδικα για τον έλεγχο της κανονικής έκφρασης. Το Deepseek δημιούργησε έναν κώδικα που λειτουργεί, αν και υπάρχει ένα μέρος για βελτίωση. Ο κώδικας που έγραψε ο Deepseek V2 ήταν πολύ μακρύς και επαναλήφθηκε, ενώ ο συλλογισμός πριν από τη δημιουργία κώδικα στο R1 ήταν επίσης πολύ μακρύς.

Η μεγαλύτερη ανησυχία μου είναι ότι και τα δύο μοντέλα δοκιμών Deepseek παρέχουν έλεγχο έως και 2 δεκαδικών σημείων, αλλά εάν εισαχθεί ένας πολύ μεγάλος αριθμός (για παράδειγμα, 0.30000000000000004), η χρήση του parsefloat δεν έχει προφανή γνώση στρογγυλοποίησης. Το μοντέλο R1 χρησιμοποίησε επίσης τον μετασχηματισμό των αριθμών JavaScript χωρίς να ελέγχει τις άκρες των άκρων. Εάν τα κακά δεδομένα επιστρέφονται από το προηγούμενο τμήμα της κανονικής έκφρασης ή μη χορδής, μετατρέψτε σε αυτόν τον μετασχηματισμό, τον κωδικό αποτυχίας.

Αυτό είναι περίεργο, επειδή το R1 παρουσίασε πραγματικά μια πολύ καλή λίστα δοκιμών για έλεγχο:

Δοκιμή-2-δοκιμή-casis — Στιγμιότυπο οθόνης του David Gevirta/ZDNET

Έτσι, έχουμε μια διαιρεμένη λύση. Δίνω την περίπτωση Deepseek V3, επειδή κανένα από αυτά τα προβλήματα που δημιουργείται από τον κώδικα του δεν θα οδηγήσει σε παραβίαση του προγράμματος όταν ο χρήστης ξεκινά και θα οδηγήσει στα αναμενόμενα αποτελέσματα. Από την άλλη πλευρά, πρέπει να το δώσω αδύνατο R1, επειδή, αν μη τι άλλο, αυτό δεν είναι μια γραμμή, με κάποιο τρόπο πέφτει στη λειτουργία του αριθμού, η αποτυχία θα έρθει.

Και αυτό δίνει Deepseek V3 δύο από τις τέσσερις νίκες, αλλά Deepseek R1 μόνο μία νίκη από τα τέσσερα.

Δοκιμή 3: Εύρεση ερεθιστικού σφάλματος

Αυτή είναι μια δοκιμή που δημιουργήθηκε όταν είχα ένα πολύ ενοχλητικό λάθος που αντιμετώπισα δυσκολίες. Για άλλη μια φορά, αποφάσισα να δω αν το ChatGPT θα μπορούσε να αντιμετωπίσει αυτό που συνέβη.

Το καθήκον είναι ότι η απάντηση δεν είναι προφανής. Στην πραγματικότητα, το καθήκον είναι ότι υπάρχει μια προφανής απάντηση που βασίζεται σε ένα μήνυμα σφάλματος. Αλλά η προφανής απάντηση είναι η λανθασμένη απάντηση. Αυτό όχι μόνο με έπιασε, αλλά και τακτικά πιάνει μερικά από τα AI.

Επίσης: Είναι το Chatgpt Plus ή Pro; Έτσι συγκρίνονται με μια δωρεάν έκδοση

Η λύση αυτού του σφάλματος απαιτεί την κατανόηση του τρόπου με τον οποίο οι συγκεκριμένες κλήσεις API στο WordPress λειτουργούν, η ευκαιρία να δούμε τον ίδιο τον κώδικα έξω από το μήνυμα σχετικά με το σφάλμα και στη συνέχεια τη γνώση του πού να βρεθεί το σφάλμα.

Τόσο το Deepseek V3 όσο και το R1 πέρασαν σχεδόν ταυτόσημες απαντήσεις, οδηγώντας μας σε τρεις από τις τέσσερις νίκες για το V3 και δύο από τις τέσσερις νίκες για το R1. Αυτό ήδη βάζει το Deepseek για να ξεπεράσει τα δίδυμα, το Pipilot, το Claude και το Meta.

Το Deepseek Home Run θα πάει για V3; Ας μάθουμε.

Δοκιμή 4: Γράφοντας σενάριο

Και ένα ακόμη δαγκώνει σκόνη. Πρόκειται για μια πολύπλοκη δοκιμή, επειδή απαιτεί από το AI να κατανοήσει την αλληλεπίδραση μεταξύ τριών περιβαλλόντων: Applescript, το μοντέλο αντικειμένου Chrome και το εργαλείο Script Mac που ονομάζεται Maestro Keyboard.

Θα το αποκαλούσα αθέμιτο τεστ, επειδή το πληκτρολόγιο Maestro δεν είναι το κύριο εργαλείο προγραμματισμού. Όμως, το ChatGPT αντιμετωπίζει εύκολα τη δοκιμή, κατανοώντας ποιο μέρος του προβλήματος επεξεργάζεται από κάθε εργαλείο.

Επίσης: Πώς το ChatGpt σαρώθηκε σε γραμμές κώδικα 170K σε λίγα δευτερόλεπτα, εξοικονομώντας ώρες εργασίας

Δυστυχώς, ούτε το Deepseek V3 ούτε το R1 είχαν τέτοιο επίπεδο γνώσης. Κανένα από τα μοντέλα δεν ήξερε ότι έπρεπε να διαιρέσει την εργασία μεταξύ των οδηγιών στο πληκτρολόγιο Maestro και Chrome. Είχε επίσης μια μάλλον αδύναμη γνώση του Applescript, γράφοντας διαδικασίες χρήστη για το Applescript, οι οποίες είναι εγγενείς στη γλώσσα.

Παράξενο, το μοντέλο R1 απέτυχε επίσης επειδή έκανε μια δέσμη λανθασμένων υποθέσεων. Θεωρήθηκε ότι υπάρχει πάντα ένα μπροστινό παράθυρο, το οποίο σίγουρα δεν είναι έτσι. Έκανε επίσης την υπόθεση ότι επί του παρόντος το πρόγραμμα Front -Line Running θα είναι πάντα Chrome και δεν ελέγχει σαφώς εάν το Chrome λειτουργεί.

Αυτό αφήνει το Deepseek V3 με τρεις σωστές δοκιμές και μία αποτυχία και Deepseek R1 με δύο σωστές δοκιμές και δύο αποτυχίες.

Οι τελευταίες σκέψεις

Βρήκα ότι η επιμονή του Deepseek στη χρήση μιας δημόσιας διεύθυνσης ηλεκτρονικού ταχυδρομείου, όπως το Gmail.com (και όχι η συνηθισμένη διεύθυνση ηλεκτρονικού ταχυδρομείου μου με τον εταιρικό μου τομέα) ήταν ενοχλητική. Είχε επίσης μια σειρά ανταπόκρισης που ανάγκασε την εφαρμογή αυτών των δοκιμών από ό, τι θα ήθελα.

Δεν ήμουν σίγουρος ότι θα μπορούσα να γράψω αυτό το άρθρο, γιατί το μεγαλύτερο μέρος της ημέρας έλαβα αυτό το λάθος προσπαθώντας να εγγραφώ:

Η ηλεκτρονική υπηρεσία DePseek έχει συναντήσει πρόσφατα κακόβουλες επιθέσεις μεγάλης κλίμακας. Για την παροχή συνεχούς υπηρεσίας, η εγγραφή περιορίζεται προσωρινά από +86 τηλέφωνα. Οι υπάρχοντες χρήστες μπορούν να εισέλθουν στο σύστημα ως συνήθως. Σας ευχαριστούμε για την κατανόηση και την υποστήριξη.

Στη συνέχεια μπήκα και μπόρεσα να ξεκινήσω τις δοκιμές.

Το Depseek φαίνεται να είναι υπερβολικά τρελό όσον αφορά τον κώδικα που δημιουργεί. Ο κώδικας Applescript στη δοκιμή 4 ήταν ακανόνιστος και υπερβολικά μακρύς. Ο κώδικας κανονικής έκφρασης στη δοκιμή 2 ήταν σωστός στο V3, αλλά θα μπορούσε να γραφτεί με τέτοιο τρόπο ώστε να καταστεί πολύ περισσότερο υπό να μπορεί να συντηρήσει. Αυτό δεν ήταν δυνατό στο R1.

Επίσης: Εάν το ChatGPT παράγει έναν κώδικα AI που δημιουργήθηκε για την αίτησή σας, σε ποιον ανήκει πραγματικά;

Είμαι σίγουρα εντυπωσιασμένος που το Deepseek V3 χτύπησε τα δίδυμα, τα pigtails και το meta. Αλλά φαίνεται ότι αυτό είναι στο παλιό επίπεδο GPT-3.5, πράγμα που σημαίνει ότι υπάρχει σίγουρα ένα μέρος για βελτίωση. Ήμουν απογοητευμένος με τα αποτελέσματα για το μοντέλο R1. Δεδομένης της επιλογής, θα επιλέξω ακόμα το ChatGPT ως βοηθός του προγραμματισμού μου.

Παρ ‘όλα αυτά, για ένα εντελώς νέο εργαλείο που εργάζεται σε μια πολύ χαμηλότερη υποδομή από άλλα εργαλεία, μπορεί να είναι τεχνητή νοημοσύνη.

Τι νομίζετε; Έχετε δοκιμάσει το Deepseek; Χρησιμοποιείτε τι είδους πρόγραμμα για την υποστήριξη του προγραμματισμού; Ενημερώστε μας στα παρακάτω σχόλια.

Μπορείτε να ακολουθήσετε τις καθημερινές ενημερώσεις έργων μου στα κοινωνικά δίκτυα. Φροντίστε να εγγραφείτε στην εβδομαδιαία ενημέρωση του ενημερωτικού δελτίου μου και να με ακολουθήσετε στο Twitter/X IN @DavidgeWirtzΣτο Facebook στο Facebook.com/davidgewirtz, instagram.com/davidgewirtz, bluesky στο @davidgewirtz.com και YouTube στο youtube.com/davidhewrtztv.

Ελέγξαμε τις δεξιότητες της κωδικοποίησης R1 και V3 Deepseek – και δεν είμαστε όλοι καταδικασμένοι (για τώρα)

Related posts

Βρήκα ένα προσιτό OLED -NOTEBK με εξαιρετικά χαρακτηριστικά για εργασία και ταξίδια – και είναι προς πώληση

Οι τεχνικοί αγοραστές των δασμών, οι οποίοι αναρωτιούνται τι θα συμβεί στη συνέχεια. Αυτό γνωρίζουμε

Γεννημένος από το παραπάνω showrunner συναγωνίζεται με έναν πιγκουίνο

Η Nvidia αυξήθηκε κατά 7% μετά τη διαδρομή AI τη Δευτέρα, από την ανάκαμψη

Η Nvidia αυξήθηκε κατά 7% μετά τη διαδρομή AI τη Δευτέρα, από την ανάκαμψη

Leave a Reply Cancel reply

RECOMMENDED NEWS

Ο Ben Dockett παίζει IPL 2025;

Δείτε τι είναι και τι δεν είναι η Canon στο νέο DCU

Η αλλαγή των ρυθμίσεων του BIOS σε διορθωμένες μητρικές Raptor Lake μπορεί να καταστρέψει τον επεξεργαστή σας ούτως ή άλλως

Η πόλη του Όρεγκον ζητά από τους ανθρώπους να σταματήσουν να κοιτάζουν τη δημόσια τέχνη καθώς οι φάρσες γίνονται τουριστική ατραξιόν

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μια προσέγγιση με γνώμονα τα δεδομένα για την εταιρική διακυβέρνηση

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Το Grand Theft Auto 6 δεν θα επηρεαστεί από την απεργία των ηθοποιών

Recent News

Category

World News

Συγκλονιστική κριτική στο γαλλικό πρωτάθλημα έκανε ο Κριστιάνο Ρονάλντο

Harshit Rana & Varun Chakaravarth για να συμμετάσχει στο στρατόπεδο εκπαίδευσης KKR για το IPL 2025 12 Μαρτίου