Nicotto Town


つれづれ、ひねもす


Watoson君ってどうやってんの?

皆さん、さっそく遊んでらっしゃるようで……(笑
あちこちで関連ブログ記事を見かけますね。

で、拝読しに行くと結構見かけるのですよね。
『これ、テキストの何を見て性格分析してるの?』という声を。

一応、公式サイトにどうやって分析しているのかの説明があるのですが……
これ→『どのようにしてこの結果が得られたか(英語)?
https://console.bluemix.net/docs/services/personality-insights/science.html

はい、英語です。
僕のような「あいきゃんとりーどいんぐりっしゅ」には
なんとなく分かるような分からないような……?(嗚呼


ということで、日本語の説明を探しました! その結果がこちら!
最強のチームはAIが作る!? Watsonの性格分析ツール開発秘話
https://www.ibm.com/think/jp-ja/watson/Personality-Insights/

開発者さんたちへのインタビューで、IBMがリリースしているので
「確度が非常に高い」かと思いますw


この記事から掻い摘まむと、
文章の特徴+テスターたちから得られた「ビックファイブ」検査の集積データから
結果を算出しているようです。

(テスター募集の時の紹介はこちら
IBM Watson、Personality Insightsの日本語化で「性格診断アンケート」を実施中
https://bizzine.jp/article/detail/1227
Biz/Zineニュース 2015年12月07日)


文章の特徴は、四つの要素から捉えているようですね。

1)言語的特徴
EX.代名詞の登場頻度、一人称を多用する、否定形が多い など
2)心理作用
EX.ポジティブに表現する、見る・聞くなどの表現が少ない など
3)相対性
EX.未来志向である など
4)関心の対象
EX.よく政治を話題にしている など

他にも助詞の使い方やら、平仮名が多いだとか、見ているっぽいです。
ほほーって感じですなぁ。

で、テスターから集めた結果を「正答」として、
ツイート内容と照合して、傾向を調べて……で、得られた結果がこちら、と。

どうも、こんなかんじの仕組みっぽいですよー? OK?



(以下、ロワゾーさんのアドバイスを受けて初稿から変えてます。「顔文字問題」についてw)

余談ですが……顔文字やAA、あるいはフレームとかは、
現システムでは「記号・アルファベットの多用」と判断されているケースも少なく無さそうな予感。
そうすると、書いた人の意図とは別の捉え方がされる訳で……
その結果、「あれ?私ってこんな?」みたいな検査結果が実感とずれる人もいらっしゃるかもですね。

今後どうやってフォローしていくのかなぁ。すごい楽しみ。

いやぁ、自然言語処理ってやっぱ難しいし面白いねぇ(笑

アバター
2018/01/20 07:29
・ロワゾーさん
うんうん、だねぇ<顔文字データベース
そそ<オリジナルの顔文字
後は(*^_^*)と(*^_^*)の差とかね。(左は全部半角、右は括弧だけ全角)
僕らは気にしない差でも、ワトソン君はつまづいちゃうと思うんだ。

うーん……今の僕の表現だと「まったくのゼロ、完全非対応」って見えるのかな?

使い慣れている人ほど独自データベース使う
→ワトソン「私の辞書に不可n……その文字は無い」
 →アルファベット多用と判断される
  →結果がずれる
   →見た人が首傾げ

みたいな感じの予想なのだけど、どうしたらより正確に伝わるだろう?
ちょっと誤字修正がてら表現を練り直すかー。

ありがとう!*:.。..。.:*・゜(n'∀')η゚・*:.。. .。.:*・<これとか読めないだろうw
アバター
2018/01/20 01:05
顔文字データベースは、少なくともグーグルは集積している。
(例: ^^; ← 顔文字 ぽりぽり あせ とタグ付けして集積してるwww) 

ベーシックで定着した一部の顔文字(「顔文字」で変換できるようなもの)は、
おそらく感情表現単語として、データ持ってることだろう。

オリジナル顔文字は顔文字と特定されないだろうねえw
読みとる我々の認識力はすごいな。
アバター
2018/01/20 00:34
・ロワゾーさん
ああ、うん、まったく非対応かは分からんし、
ご指摘の通り、英語版ではXDなどの主立った顔文字は登録済みと思う。

ただ、日本の場合節操なしというか…w
顔文字って、どちらかと言えばエモコティンとか……意味合い的に言語じゃなくて画像でしょう?
(wは略号だと思ってたw)
文字コードの問題とか豊富すぎる種類とかの技術的問題と、
基礎データがテスターのつぶやきであることを考えると、
様々な顔文字を日常的に使い分ける人のテキストの解析には、
まだ対応……うーん、適応? してないんじゃないかなぁ、という予想なのです。

表情識別アプリとか最近は開発されたし、いずれ顔文字の「表情」を読み解く仕組みが
開発されたら面白いだろうなー。期待( ・ㅂ・)و グッ !
アバター
2018/01/19 22:52
どうだろう スラングとして辞書が存在するものなら採取してるかもしれない
ネットスラングで、英語の :) や XD や xxx なんかを無視したらツイート成り立たんしな
日本語の w や (*´ω`*) このくらいだったらワトソンくん把握してるかもよw



Copyright © 2024 SMILE-LAB Co., Ltd. All Rights Reserved.