Προβλέποντας αναρτήσεις Clickbait Instagram

Φωτογραφία από τον Ben Kolde στο Unsplash

Πρόκειται για ένα έργο επιστήμης δεδομένων που προβλέπει δημοσιεύσεις clickbait στο Instagram (πρόβλημα δυαδικής ταξινόμησης). Η πηγή των δεδομένων και ένα Jupyter Notebook με τον κωδικό που μπορείτε να ακολουθήσετε μπορείτε να βρείτε εδώ. Το έργο ξεκινά με διερευνητική ανάλυση δεδομένων, ακολουθούμενη από δοκιμή μοντέλου και συντονισμό και ολοκληρώνεται με την επιλογή μοντέλου και επιχειρηματικές πληροφορίες.

Πρόβλημα κατανόησης

Το Instagram έχει αναδειχθεί ως μια πολύτιμη πλατφόρμα κοινωνικών μέσων για μάρκες μόδας, όπου μπορούν να επικοινωνούν απευθείας με τους καταναλωτές τους. Η έμφαση της πλατφόρμας στο οπτικό περιεχόμενο συνδυάζεται καλά με τη μόδα και το στυλ, έτσι το Instagram έχει φυσικά εξερευνήσει το να γίνει μια επιλογή ανακάλυψης προϊόντων για στυλ και ρούχα. Το επιχειρηματικό πρόβλημα που αντιμετωπίζουμε είναι πώς να βελτιώσουμε την αφοσίωση των χρηστών στο Instagram, ιδίως στο πλαίσιο των επωνυμιών μόδας.

Οι αναρτήσεις Clickbait είναι ένα ζήτημα που αντιμετωπίζουν όλες οι πλατφόρμες κοινωνικών μέσων. Παρόλο που μπορούν να διεγείρουν την αφοσίωση των χρηστών σε κάποιο βαθμό, επηρεάζουν αρνητικά τη συνολική εμπειρία χρήστη και μπορούν να επηρεάσουν τη διαδικασία ανακάλυψης προϊόντων στο Instagram. Αυτό το μοντέλο μπορεί να βοηθήσει στον εντοπισμό αναρτήσεων Clickbait που εμποδίζουν τους χρήστες να βρουν τα προϊόντα που τους ενδιαφέρουν, βελτιώνοντας έτσι την αφοσίωση των χρηστών, καθώς και τον αλγόριθμο προτάσεων και επιτρέποντας στο Instagram να εξελιχθεί ως πλατφόρμα αναζήτησης προϊόντων για στυλ και μόδα.

Κατανόηση δεδομένων

Τα δεδομένα περιλαμβάνουν τυπικές μετρήσεις που βρέθηκαν σε αναρτήσεις Instagram, όπως τον αριθμό των επισημάνσεων "μου αρέσει" και των σχολίων, τον αριθμό των ακολούθων και τον αριθμό των ακολούθων της αφίσας. Εξετάζει επίσης τα μήκη των υπότιτλων, των hashtag, της συμπερίληψης διευθύνσεων URL και των δημοφιλών συμπερασμάτων hashtag. Τέλος, υπάρχουν χαρακτηριστικά γνωρίσματα που δείχνουν τις πιθανότητες να έχει μια εικόνα συγκεκριμένη ποιότητα, για παράδειγμα να είναι μια εξωτερική εικόνα ή να έχει το λογότυπο μιας μάρκας στην εικόνα. Θα μπορούσαμε να ορίσουμε ένα όριο για να μετατρέψουμε αυτές τις πιθανότητες σε 1s και 0s, αλλά επειδή δεν έχω δει τις φωτογραφίες των δημοσιεύσεων, δεν θέλω να χρησιμοποιήσω έναν τυχαίο αριθμό για να εκφράσω την εμπιστοσύνη μου.

Πρέπει να έχουμε βαθμολογία ακρίβειας βάσης για να συγκρίνουμε τα μοντέλα με. Υπολόγισα ότι το ποσοστό των δημοσιεύσεων clickbait σε αυτό το σύνολο δεδομένων είναι περίπου 45%. Δεδομένου ότι περίπου το 45% των δημοσιεύσεων στο σύνολο δεδομένων είναι αναρτήσεις Clickbait, το 55% είναι non-clickbait. Αν ένα μοντέλο θεωρούσε ότι οι δημοσιεύσεις ήταν όλες χωρίς δόλωμα, θα ήταν σωστό το 55% του χρόνου, οπότε το 55% είναι το βασικό σκορ ακρίβειας για όλα τα μοντέλα.

Διερευνητική ανάλυση

Χρησιμοποιώντας την προσωπική μου εμπειρία (το Instagram είναι η δεύτερη πιο χρησιμοποιημένη εφαρμογή στο iPhone μου), επέλεξα να ξεκινήσω εξετάζοντας τη σχέση μεταξύ των δημοσιεύσεων clickbait και της διάρκειας των hashtags.

Οι γραφικές παραστάσεις βιολιού χρησιμοποιούνται λιγότερο συχνά σε σύγκριση με τις παραστάσεις κουτιού, αλλά τις προτιμώ γιατί παρουσιάζουν περισσότερες πληροφορίες. Η λευκή κουκκίδα στη μέση είναι η διάμεση, η μαύρη γραμμή είναι το εύρος μεταξύ τεταρτημορίων (25% - 75%) και το πλάτος δείχνει τη συχνότητα. Σημειώστε ότι ο άξονας y εδώ είναι το φυσικό αρχείο καταγραφής μήκους των hashtags. Περίμενα οι αναρτήσεις clickbait να περιλαμβάνουν περισσότερα hashtag για να εξαπατήσουν το σύστημα προτάσεων. Αυτό το γράφημα δείχνει ότι το μήκος είναι συχνότερα υψηλότερο για δημοσιεύσεις χωρίς κλικ (μεταξύ 5–6) σε σύγκριση με τις αναρτήσεις για δόλωμα κλικ (4–5), ένα μοτίβο που είναι αντίθετο με τη διαίσθησή μου. Το διάμεσο μήκος είναι επίσης υψηλότερο για δημοσιεύσεις χωρίς κλικ. Ενώ αυτό το μοτίβο είναι το αντίθετο από αυτό που περίμενα, θα μπορούσε να είναι χρήσιμο στην πρόβλεψη των δημοσιεύσεων κλικ. Αφού είδα αυτό το γράφημα, συνειδητοποίησα ότι άρχισα να ελέγχω τα μήκη hashtag στη ροή μου στο Instagram πολύ περισσότερο.

Ως έλεγχος λογικής, μπορούμε να διερευνήσουμε εάν οι πιθανότητες που χαρακτηρίζουν τις εικόνες έχουν νόημα. Τα ζευγάρια στο θαλασσοπόρο είναι υπέροχα για αυτό.

Για παράδειγμα, το Face και το Selfie είναι πολύ παρόμοια χαρακτηριστικά, οπότε όσο υψηλότερη είναι η πιθανότητα μιας selfie, τόσο πιθανότερο είναι να συμπεριληφθεί ένα πρόσωπο. Το ProductOnly και το Selfie είναι αντίθετα χαρακτηριστικά και το σκέδατο σκέψης το δείχνει αυτό. Μια ενδιαφέρουσα σχέση είναι το BrandLogo και το BodySnap. Ίσως με εικόνες σώματος, το λογότυπο της μάρκας είναι τόσο μικρό που είναι απαρατήρητο, αλλά θα μπορούσε να υπάρχει. Το πρόσωπο και το χαμόγελο σχετίζονται επίσης κάπως θετικά. Ίσως οι εικόνες με πρόσωπα είναι πιο πιθανό να είναι χαμόγελα. Ορισμένοι συνδυασμοί είναι παντού, όπως το λογότυπο και το ύπαιθρο.

Μπορούμε επίσης να εξετάσουμε τη σχέση μεταξύ του μήκους των hashtag και των υπότιτλων.

Βλέπουμε ότι υπάρχουν περισσότεροι υπότιτλοι από τα hashtag και ότι πολλές αναρτήσεις δεν περιέχουν καθόλου hashtag, κρίνοντας από τις κάτω πράσινες γραμμές. Παραδόξως, υπάρχει μια ανάρτηση με μήκος λεζάντας 4603. Δεν πίστευα καν ότι το Instagram επέτρεψε μια ανάρτηση. Όπως περίμενα, ήταν ένα κλικ. Έλεγξα επίσης την ανάρτηση με το μεγαλύτερο hashtag (1702), αλλά αυτό δεν ήταν στην πραγματικότητα ένα κλικ.

Πρίπλασμα

Λογιστική παλινδρόμηση

Το πιο απλό μοντέλο εδώ είναι η λογιστική παλινδρόμηση, η οποία είναι ένα πιο επεξηγηματικό μοντέλο που δείχνει τους συντελεστές των μεταβλητών. Μια απλή λογιστική παλινδρόμηση έχει ακρίβεια 0,62, μετά από 10πλάσια διασταυρούμενη επικύρωση. Λίγο καλύτερα από το βασικό. Τα 10 πιο σημαντικά χαρακτηριστικά που επέλεξε το μοντέλο είναι τα ακόλουθα, ταξινομημένα με βάση την απόλυτη τιμή των συντελεστών τους. Σημειώστε ότι εάν η εικόνα είναι πιο πιθανό να είναι NonFashion και Outdoor, είναι λιγότερο πιθανό να θεωρηθεί ανάρτηση clickbait. Περισσότερα σχόλια και μεγαλύτερη πιθανότητα συμπερίληψης λογότυπων και προϊόντων Productlyly είναι πολύ πιθανό να είναι Clickbait.

Δέντρο απόφασης

Ένα απλό μοντέλο δέντρου αποφάσεων έχει ακρίβεια 0,783, η οποία είναι πολύ καλύτερη από τη βαθμολογία ακρίβειας Logistic Regression.

Μπορούμε επίσης να συντονίσουμε το δέντρο για να δούμε ποιες παραμέτρους επιτρέπουν στο μοντέλο να αποφέρει καλύτερες εξόδους. Το Max_depth είναι δημοφιλές, οπότε δοκιμάζουμε το max_depth από το 1 έως το 32 και το σχεδιάζουμε. Μπορούμε να δούμε ότι το σετ προπόνησης AUC αυξάνεται πάντα, αλλά το σετ δοκιμής βρίσκεται σε φθίνουσα τάση μετά από περίπου 10. Όπως περιμέναμε, το overfitting γίνεται περισσότερο ζήτημα καθώς αυξάνεται το βάθος. Σε επτά δέντρα, το σετ δοκιμής AUC είναι το υψηλότερο: 0,8858.

Δοκιμάζουμε ένα άλλο σύνολο παραμέτρων, το min_samples_leaf, το οποίο κάνει xxx. Βάλτε αυτά τα δύο σε μια αναζήτηση πλέγματος με 10πλάσια διασταυρούμενη επικύρωση, βρίσκουμε τις καλύτερες παραμέτρους μοντέλου: 4 μέγιστο βάθος, 0,12 min_samples_leaf. Το AUC εδώ είναι 0,875, υψηλότερο από αυτό που βρήκαμε μόλις συντονίζοντας το max_depth.

Τυχαίο δάσος

Μετάβαση στο τυχαίο δασικό μοντέλο. Η βαθμολογία ακρίβειας από μια απλή εφαρμογή και πρόβλεψη δείχνει ότι είναι καλύτερη από το μοντέλο του δέντρου αποφάσεων. Συντονίζουμε επίσης το τυχαίο δάσος σε n_estimators (αριθμός δέντρων) και min_samples_leaf (). Αυτό διαρκεί λίγο, αλλά η βαθμολογία AUC από το καλύτερο σύνολο παραμέτρων είναι 0,912.

Το Random Forest δεν δίνει συντελεστές για τα χαρακτηριστικά, αλλά δείχνει τη σημασία των χαρακτηριστικών στη διαδικασία ταξινόμησης του clickbaits του μοντέλου. Το NonFashion είναι μακράν η πιο σημαντική μεταβλητή, ακολουθούμενη από το BrandLogo και το λογότυπο. Φαίνεται ότι οι εικόνες ήταν πιο ενδεικτικές του Clickbait έναντι άλλων τμημάτων της ανάρτησης, όπως σχόλια ή χρήση δημοφιλών hashtag. Ωστόσο, δεδομένου ότι αυτοί οι αριθμοί δεν είναι συντελεστές, δεν μπορούμε να προσδιορίσουμε εάν μια αύξηση ή μείωση σε οποιαδήποτε από αυτές τις λειτουργίες θα κάνει την ανάρτηση πιο πιθανή ή λιγότερο πιθανό να είναι ανάρτηση clickbait. Απλώς ρίχνουν λίγο φως σε ποιες μεταβλητές βρίσκει το μοντέλο και έχουν ισχυρή επίδραση στην προβλεπόμενη έξοδο.

XGBoost

Επαναλαμβάνουμε τη διαδικασία συντονισμού αναζήτησης πλέγματος για το XGBoost. Η βαθμολογία AUC για το καλύτερο σύνολο παραμέτρων εδώ είναι 0,915, ξεπερνώντας ελαφρώς το τυχαίο δασικό μοντέλο.

Το πρώτο πράγμα που παρατήρησα είναι ότι αυτές οι μεταβλητές είναι πολύ παρόμοιες με αυτές που επιλέγονται από το τυχαίο δασικό μοντέλο, αλλά με διαφορά στα μεγέθη. Από τα δύο γραφήματα, μπορούμε να βρούμε ένα συνεπές μοτίβο: εικόνες εκτός μόδας, εικόνες με λογότυπα και μήκος hashtag που χρησιμοποιούνται στις αναρτήσεις είναι σημαντικοί συντελεστές στον προσδιορισμό μιας ανάρτησης clickbait. Υπάρχει σαφώς το top 3, σε αντίθεση με το προηγούμενο γράφημα. Η συμπερίληψη διευθύνσεων URL είναι επίσης σημαντική εδώ, αλλά όχι για το τυχαίο δασικό μοντέλο.

Βαθιά μάθηση

Ήθελα να δοκιμάσω τη βαθιά μάθηση και τα νευρωνικά δίκτυα σε αυτό το έργο. Η βαθιά μάθηση χρησιμοποιείται συχνά περισσότερο για μεγάλα σύνολα δεδομένων (δεκάδες ή εκατοντάδες χιλιάδες σειρές) και πολλές αλληλεπιδράσεις μεταξύ χαρακτηριστικών (πολλές x μεταβλητές). Ξεπερνά αυτά τα μοντέλα σε περιπτώσεις χρήσης, όπως η εξόρυξη κειμένου, η αναγνώριση εικόνας, οπότε δεν περιμένω να είναι τέλεια σε αυτήν την περίπτωση, ειδικά όταν το τυχαίο δάσος και το XGBoost δημιουργούν βαθμολογίες υψηλής ακρίβειας. Με δύο επίπεδα 50 μονάδων το καθένα, το μοντέλο παρήγαγε βαθμολογία ακρίβειας μόνο 0,463, το οποίο είναι χειρότερο από το βασικό σκορ.

Δοκιμάζοντας ένα πιο περίπλοκο και βαθύτερο μοντέλο, πρόσθεσα ένα άλλο επίπεδο (3 σύνολο) και άλλαξα τις μονάδες ανά στρώμα σε 100. Η απόδοση βελτιώθηκε σε 0,523, το οποίο είναι ακόμα χειρότερο από το βασικό. Ωστόσο, ήταν καλό να εξασκηθείτε χρησιμοποιώντας αυτό το εργαλείο, αλλά θα αποκλείσουμε το νευρωνικό δίκτυο από περαιτέρω ανάλυση.

Επιλογή μοντέλου

Αρχικά σχεδιάζουμε τις καμπύλες ROC για να έχουμε μια ιδέα απόδοσης. Μπορούμε γρήγορα να αναγνωρίσουμε ότι τα xgboost και τυχαία δασικά μοντέλα ξεπερνούν σημαντικά το δέντρο αποφάσεων, αλλά η απόδοσή τους είναι πολύ παρόμοια.

Μπορούμε επίσης να σχεδιάσουμε τις βαθμολογίες AUC (περιοχή κάτω από την καμπύλη ROC) και τις βαθμολογίες ακρίβειας των τριών μοντέλων για να απεικονίσουμε τη σχετική απόδοσή τους. Χρησιμοποίησα ένα γράφημα γραμμών για να δείξω την αυξανόμενη πολυπλοκότητα του μοντέλου και επειδή με μια γραφική παράσταση, η διαφορά είναι σχεδόν αισθητή λόγω του άξονα y που ξεκινά από το 0. Βλέπουμε ότι το τυχαίο δασικό μοντέλο ξεπερνά δραστικά το δέντρο αποφάσεων, αλλά το μοντέλο XBGoost έχει παρόμοια απόδοση με τυχαίο δάσος.

Ενώ η AUC και η ακρίβεια χρησιμοποιούνται ευρέως μετρήσεις για αξιολόγηση, πρέπει να επιλέξουμε μια μέτρηση που ταιριάζει καλύτερα στην περίπτωση χρήσης για το μοντέλο. Η ακρίβεια αξιολογεί τη συνολική απόδοση του μοντέλου στις ακριβείς και ανακριβείς προβλέψεις του και επίσης υποθέτει ότι το κόστος της εσφαλμένης ταξινόμησης είναι το ίδιο για ψευδώς θετικά ή ψευδώς αρνητικά.

Σε αυτήν την περίπτωση, το κόστος είναι περίπου το ίδιο; Πρέπει να δώσουμε περισσότερη έμφαση στα Ψευδώς Θετικά (προβλέποντας ανακριβώς το μη-κλικ-δόλωμα ως κλικ-δόλωμα) και / ή τα Ψευδώς αρνητικά (ανακριβώς προβλέποντας το κλικ ως μη-κλικ); Το τελευταίο θα επέτρεπε στις αναρτήσεις clickbait να συνεχίσουν να υπάρχουν στο σύστημα και να αμβλύνουν την εμπειρία των χρηστών σε κάποιο βαθμό, αλλά η πρώτη θα μπορούσε να οδηγήσει στην κατάργηση της ανάρτησης από τις ροές προτάσεων και να προκαλέσει μεγάλη απογοήτευση εάν ήταν μια πληρωμένη ανάρτηση. Η αφίσα θα μπορούσε ακόμη και να υποστεί οικονομικές απώλειες λόγω της κακής έκθεσης των πληρωμένων θέσεων. Η σκέψη μου είναι ότι τα ψεύτικα θετικά πρέπει να τιμωρηθούν πιο σοβαρά επειδή μπορούν να προκαλέσουν περισσότερη βλάβη, οπότε πρέπει να εξετάσουμε τη βαθμολογία ακρίβειας, η οποία υπολογίζει ακριβώς αυτό.

Το XGboost μόλις ξεπερνά μόλις το τυχαίο δάσος σε αυτήν τη μέτρηση: 0,841 έναντι 0,828. Με το ότι απαιτεί πολύ περισσότερη υπολογιστική ισχύ και χρειάζονται περισσότερο χρόνο για να τρέξει, δεν νομίζω ότι το κόστος δικαιολογεί την ανταμοιβή. Στο τέλος της ημέρας, θα συνιστούσα το τυχαίο δασικό μοντέλο για μελλοντικές προβλέψεις.

Ανάπτυξη και χρήση

Αυτό το μοντέλο δημιουργήθηκε με σκοπό να βοηθήσει το Instagram να αφαιρέσει αναρτήσεις clickbait από τον αλγόριθμο προτάσεών του, βελτιώνοντας έτσι την ποιότητα του περιεχομένου στη διαδικασία ανακάλυψης προϊόντων μόδας καθώς και τη συνολική εμπειρία χρήστη. Το προτεινόμενο μοντέλο, τυχαίο δάσος, δεν λαμβάνει υπόψη χαρακτηριστικά που μπορεί να διαφέρουν με μεγάλη σημασία, όπως ο αριθμός των επισημάνσεων "μου αρέσει" και των σχολίων, καθιστώντας δυνατή την ανάπτυξη του αλγορίθμου σε αναρτήσεις από τη στιγμή της δημοσίευσής τους. Αυτό θα μείωνε τον αριθμό των δημοσιεύσεων clickbait που κυκλοφορούν αφαιρώντας τις από τη ροή προτάσεων νωρίς, βελτιώνοντας έτσι την εμπειρία και την αφοσίωση του χρήστη. Τούτου λεχθέντος, θα πρέπει να γίνει μετά από εκτεταμένες δοκιμές για την ανθεκτικότητα του μοντέλου.

Για να ελέγξουμε εάν η αφοσίωση των χρηστών βελτιώθηκε πραγματικά, μπορούμε να εξετάσουμε μετρήσεις όπως ο μέσος χρόνος που αφιέρωσαν οι χρήστες εξετάζοντας τις προτεινόμενες αναρτήσεις, με την υπόθεση ότι οι χρήστες που κάνουν κλικ σε αναρτήσεις clickbait θα εγκαταλείψουν γρήγορα την ανάρτηση μόλις το συνειδητοποιήσουν και δημοσιεύσεις non-clickbait που παρέχουν πολύτιμες Οι πληροφορίες θα απαιτούσαν από τους χρήστες να περνούν περισσότερο χρόνο κοιτάζοντας τους.

Περιορισμοί

Ενώ το αποτέλεσμα δείχνει υπόσχεση, είμαι δύσπιστος για την ποιότητα των δεδομένων εισαγωγής. Μετά τη μη αυτόματη μετάβαση στις διευθύνσεις URL ανάρτησης που περιλαμβάνονται στο σύνολο δεδομένων και επαλήθευση εάν η ανάρτηση έχει επισημανθεί σωστά ως δόλωμα κλικ ή όχι, βρίσκω ότι διαφωνώ με ορισμένες από τις αναρτήσεις στο δείγμα μου. Όλες οι δημοσιεύσεις επισημάνθηκαν με μη αυτόματο τρόπο μαζί με μια εξήγηση στο πρωτότυπο έγγραφο, οπότε υπάρχει σημαντικό περιθώριο συζήτησης σχετικά με το αν μια ανάρτηση είναι πραγματικά μια ανάρτηση κλικ. Για τους σκοπούς αυτής της ανάλυσης, υποθέτω ότι η επισήμανση ήταν σωστή.

συμπέρασμα

Με βαθμολογία ακρίβειας 0,885, το τυχαίο δασικό μοντέλο είναι μια σημαντική βελτίωση έναντι της αρχικής ακρίβειας: 0,55. Ενώ η εφαρμογή του σίγουρα θα βοηθήσει στη βελτίωση του αλγορίθμου προτάσεων, πρέπει κανείς να γνωρίζει τα λάθη της εσφαλμένης ταξινόμησης, ειδικά τα ψευδώς θετικά. Η διάθεση θα πρέπει να παρακολουθείται στενά.

Ελπίζω να σας άρεσε να διαβάζετε αυτό το κομμάτι και αν έχετε σχόλια ή προτάσεις για βελτίωση, παρακαλώ σχολιάστε παρακάτω ή επικοινωνήστε μαζί μου απευθείας!

Επιπρόσθετοι πόροι

Ποιες μετρήσεις ταξινόμησης θα επιλέξετε