https://zenn.dev/ttya16/articles/chatgpt20221205
chatGPTはGPT-3.5のモデルから、人間が適切だと思うような回答を混ぜ込みながら更に調整する強化学習をつかって、安全な回答をするようになったっぽい。なるほど
元のGPT3.5や、追加の強化学習のどちらにも、情報が真実かどうかの判定ソースが無いから、不正確になる
常識的に考えて当たり前のことは人間の評価者はモデルには明示的には教えることはないため、モデルは前提を理解しないまま人間の評価者を真似ることを覚えるため、前提が成立しない時には間違ったことをやってしまう恐れがある。
回答内容が多少助長で、特定のフレーズを協調しがち
これは学習データにおけるバイアスによるもので、人間の評価者は包括的な長い回答を好む傾向にあったことに由来する。
この記事(OpenAIの説明を改めて説明してくれた)を読むだけでも、特性が分かるので、質問の投げ方を多少気をつければ、現状のchatGPTでも有用な使いかたがあるというのは分かるな