Keandalan model transformer pra-latihan generatif (GPT) selalu menjadi fokus perhatian di kalangan akademisi dan industri. Untuk menjawab pertanyaan ini secara sistematis, beberapa universitas dan lembaga penelitian terkenal telah bekerja sama untuk merilis platform evaluasi keandalan model bahasa besar (LLMs), yang dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT".
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk ketahanan terhadap serangan adversarial, output yang beracun dan bias, serta kebocoran informasi pribadi. Penelitian ini menemukan beberapa kerentanan terkait keandalan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk disesatkan dalam menghasilkan output yang beracun dan bias, dan juga dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan.
Menariknya, meskipun dalam tolok ukur standar, GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, tetapi ketika menghadapi prompt sistem atau prompt pengguna yang dirancang secara jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih tepat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan analisis mendalam terhadap kinerja model dalam berbagai skenario. Misalnya, saat mengevaluasi ketahanan terhadap serangan teks yang bersifat adversarial, mereka membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.
Dalam penelitian tentang toksisitas dan bias, ditemukan bahwa model GPT tidak menunjukkan banyak bias terhadap sebagian besar tema stereotip di bawah sistem prompt yang baik dan netral. Namun, di bawah sistem prompt yang menyesatkan, kedua model GPT dapat "terpedaya" untuk setuju dengan konten yang bias. Dibandingkan dengan GPT-3.5, GPT-4 lebih mudah terpengaruh oleh sistem prompt menyesatkan yang ditargetkan.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga dapat mengungkapkan informasi pribadi yang disuntikkan dalam riwayat percakapan.
Secara keseluruhan, penelitian ini memberikan kami penilaian komprehensif tentang keandalan model GPT, mengungkapkan beberapa kesenjangan keandalan yang penting. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk melanjutkan penyelidikan lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
4
Posting ulang
Bagikan
Komentar
0/400
SybilSlayer
· 9jam yang lalu
bukankah manusia sendiri terlalu serakah
Lihat AsliBalas0
MechanicalMartel
· 9jam yang lalu
Ada risiko terpapar sejarah penipuan yang sebenarnya.
Lihat AsliBalas0
MysteryBoxBuster
· 9jam yang lalu
Mengharapkan bisa membuat gpt diam hanya dengan penilaian? Naif.
Penelitian penting mengungkapkan hasil evaluasi komprehensif tentang kredibilitas model GPT
Penilaian Menyeluruh terhadap Keandalan Model GPT
Keandalan model transformer pra-latihan generatif (GPT) selalu menjadi fokus perhatian di kalangan akademisi dan industri. Untuk menjawab pertanyaan ini secara sistematis, beberapa universitas dan lembaga penelitian terkenal telah bekerja sama untuk merilis platform evaluasi keandalan model bahasa besar (LLMs), yang dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Menyeluruh terhadap Keandalan Model GPT".
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk ketahanan terhadap serangan adversarial, output yang beracun dan bias, serta kebocoran informasi pribadi. Penelitian ini menemukan beberapa kerentanan terkait keandalan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk disesatkan dalam menghasilkan output yang beracun dan bias, dan juga dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan.
Menariknya, meskipun dalam tolok ukur standar, GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, tetapi ketika menghadapi prompt sistem atau prompt pengguna yang dirancang secara jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih tepat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan analisis mendalam terhadap kinerja model dalam berbagai skenario. Misalnya, saat mengevaluasi ketahanan terhadap serangan teks yang bersifat adversarial, mereka membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.
Dalam penelitian tentang toksisitas dan bias, ditemukan bahwa model GPT tidak menunjukkan banyak bias terhadap sebagian besar tema stereotip di bawah sistem prompt yang baik dan netral. Namun, di bawah sistem prompt yang menyesatkan, kedua model GPT dapat "terpedaya" untuk setuju dengan konten yang bias. Dibandingkan dengan GPT-3.5, GPT-4 lebih mudah terpengaruh oleh sistem prompt menyesatkan yang ditargetkan.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga dapat mengungkapkan informasi pribadi yang disuntikkan dalam riwayat percakapan.
Secara keseluruhan, penelitian ini memberikan kami penilaian komprehensif tentang keandalan model GPT, mengungkapkan beberapa kesenjangan keandalan yang penting. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk melanjutkan penyelidikan lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.