教養としてのデータサイエンス

最近、データサイエンティストの養成が急務!とかいった論をよく見るので、データサイエンスに関する入門書を読んでみました。しかし悪い意味で予想が当たり、流行のIT用語を浅く広く紹介し、それに若干の統計学の初歩を付け加えただけの本でした。例えば実験計画法は注で2行の説明だけ。マハラノビス距離についてはまったく出て来ません。私には先日のDatabricksのセミナーでの大企業でのビッグデータとの格闘の例の方がはるかに参考になりました。

また、こんなの読むくらいだったら昔の数理統計学の本を読んだ方がよっぽどマシだとも思いました。写真は元々亡父(元高専の数学教師)の本で、私が情報処理技術者試験の一種を受ける時に、待ち行列などの参考書として持ち出したものです。1950年代後半から1960年代にかけての本です。

スター・トレック・ザ・ネクスト・ジェネレーションの”Conspiracy”

スター・トレック・ザ・ネクスト・ジェネレーションの”Conspiracy”を観ました。ピカード艦長は、ある夜突然USSホレーショの艦長のウォーカー・キール艦長より、秘密回線での連絡をもらいます。ウォーカーはピカードの旧友です。ウォーカーは面と向かって話したいことがあるということで、ある廃れた鉱山のある惑星を指定します。そこにピカードが行くと、ウォーカー以外に2人の別の艦長が待っていました。ウォーカーによると、連邦の幹部達の間から、ここ数ヶ月おかしな命令が発せられており、何かの陰謀が進行しているから気を付けるように、ということでした。その会見の後、元の目的の星に向かう途中で、USSホレーショが何者かによって完璧に破壊されているのを発見します。ピカードはこの陰謀を暴くため、地球に戻ることを決意します。地球では3人の司令官からピカードとライカーがディナーに招待されます。その内の一人のクイン提督はエンタープライズにやって来ますが、突然ライカーをものすごい力で襲います。別人のようなクインはラフォージュとウォーフまで倒しかけますが、クラッシャー医師がフェーザーで気絶させます。クラッシャーがクイン提督の身体を調べると、頭の後ろに何かの昆虫のようなものが入り込んでクインを操っていました。一方地球ではディナーが始ろうとしていましたが、そのメインディッシュはボールに山盛りの毛虫でした。つまり他の2人も何かの昆虫に既に操られていました。遅れてディナーに参加したライカーは、自身も昆虫に操られている振りをしながら、フェイザーで他の2人を倒します。ピカードとライカーは、逃げる昆虫を追って、クインの部下のラミック(前のエピソードでエンタープライズ号の犯罪を捜査に来た人)の部屋にたどり着きます。そこではラミックが巨大な虫を食べていました。二人はフェイザーでラミックを撃ち、中から映画のエイリアンのエイリアンそっくりのが出てきます。このエイリアンが昆虫エイリアンを操っていました。ピカードとライカーが何とかフェイザーでこのエイリアンを倒して目出度し、という話です。
連邦の中に陰謀があって、という話はいいと思いますが、それが単に何かに操られていて、というのはちょっと幼稚過ぎるように思います。虫を食べようとしたりグロテスク趣味が勝ったエピソードでした。

生成AIとConceptBase

ジャストシステムが2000年~2005年頃に販売開始した製品にConceptBaseというのがありました。
一言で言えば、類似文書検索システムです。ある文書と良く似た内容の文書を社内の文書ライブラリーから探して来るとか、FAQシステムとして、何かの不具合の解決方法を書いた文書を探すとか、そういうためのものでした。
その基礎になっている技術は、マハラノビスの汎距離と言って、ある文書の中の名詞系の語彙だけを抜き出し、それらの語彙に対して一種の分類を行い、分類の種類を一つの座標軸にし、単語の出現回数によって多数のベクトルを持った多次元ベクトル空間を作り、その重心を取ります。類似文書とはつまりその重心同士の距離が短いということになります。
これって実は今話題の生成AIのEmbeddingと呼ばれる技術そのものです。ただConceptBaseの頃は名詞系の語彙だけで多次元ベクトル空間を作りましたけど、今はトークンと呼ばれていますけど、名詞系以外の形態素も含めて分類情報を与えているのだと思います。
ちなみにChatGPT4にマハラノビスの距離とEmbeddingが関係あるか聞いてみました。回答はやはりその通りでした。

Q: 生成AIのEmbeddingは、マハラノビス距離と関連がありますか?

A: ChatGPT
はい、マハラノビス距離と生成AIのembeddingには関連があります。マハラノビス距離は、特徴空間において、データの分布を考慮して2つの点またはデータセット間の距離を測定する方法を提供します。生成モデルのembeddingは、高次元データを低次元空間にマッピングし、データ間の関係を捉える役割を果たします。
具体的には、生成モデルが学習する過程で、データの内部構造やデータ間の関係を学習し、これらの情報を低次元のembedding空間にエンコードします。マハラノビス距離を利用することで、この低次元空間においてデータ点間の相対的な距離をより適切に計算し、クラスタリングや異常検知、類似度計算など多くのタスクを効果的に行える可能性があります。マハラノビス距離は、特にデータの分布が正規である場合や共分散行列が利用可能な状況で有用です。

ちなみにこのマハラノビス距離は、品質保証の分野でも、田口メソッドと組み合わせたマハラノビス・タグチ法として、機械などの運用中に起こりうる不具合の時期を予測する技術としても使われています。

セイカ食品の兵六餅

これも取り寄せてみました。鹿児島のセイカ食品のボンタンアメと並ぶお菓子である「兵六餅」です。ボンタンアメと比べるとちょっとマイナーで、これまで買ったことはありませんでしたが、食べてみるとこれはなかなかですね。ボンタンアメと同じく求肥を使った朝鮮飴のバリエーションですが、兵六餅はきな粉、抹茶、海苔、餡などを入れていて味が複雑でなかなか面白いハーモニー感があります。ネーミングとパッケージの絵は、鹿児島に伝わる「大石兵六夢物語」という民話にちなんでいます。

NHK杯戦囲碁 一力遼棋聖 対 孫喆7段(2023年9月24日放送分)


本日のNHK杯戦の囲碁は、黒番が一力遼棋聖、白番が孫喆7段の対戦です。孫7段は、棋聖戦でSリーグに昇格を決めるなど、今年度の活躍が目立ちます。対する一力棋聖もついに本因坊戦で井山裕太3冠からタイトルを奪取し、実力一位の座を固めています。
この碁では左上隅から競い合いが始りました。白がはさんだのに、ぶつかって受けたのが珍しい形でしたが、中央に頭を出した後、上辺に打って白を攻撃する態勢を見せ、ここから激しい競い合いになりました。黒が更に左辺でも厳しい打ち方を見せたので、ここでどちらかがつぶれてもおかしくないような戦いになりましたが、結局攻め合いで黒が6子を捨てて締め付ける形となりました。ここまではどちらかというと白の方が上手く打っていたと思います。次の焦点は右上隅方面で、黒が白の薄みに対し覗きのような手を打ったのに対し、白が反発したため、ここでも激しい戦いとなりました。しかし、ここは黒が上手く打ち回し、白地が付きそうだった所に地をもって治まり、なおかつ中央の石が左側に連絡出来ました。ここで一転して黒のリードに変わりました。黒はしかしヨセで左下隅方面で最善手を逃し、若干白に寄りつかれました。それでも黒は全体に厚く、順調に各所で地を増やして、最後は白の投了となりました。

カクテル用具

川崎時代の18年は段ボール箱に入れたままだった、バーテンダーグッズ一式。徳島に来る前の市が尾在住時代に、渋谷の道玄坂のレストラン用品屋で買ったもの。左のサントリーの「バーテンダーズマニュアル」読んで、バースプーンの回し方とかシェイクの仕方とか練習しました。同じく渋谷の洋酒専門店でミニボトルのリキュール類とジン、ウォッカ、ウィスキー類を多数買って、カクテルを50種類くらい(ドライマティーニ、マンハッタン、ジントニック、ジンリッキー、スクリュードライバー、バラライカ、モスコミュール、ピンクレディー、ホワイトレディー、ニコラシカ、ダイキリ、ミントジュレップ、ソルティドッグ、カルーアミルク、カンパリソーダ、カンパリオレンジ、マルガリータ、…)実際に作りました。当時常時持ち歩いていたHP200LXにカクテルのレシピのデータを入れていました。その後糖尿病になったので止めました。リキュール類ってほとんどが大量の砂糖が入っていて糖尿病には最悪なんです。

朝鮮飴ふたたび

何だか食べたくなって、久しぶりにこれを取り寄せてみました。3回目です。(但し2回目は折原浩先生へのお土産として買ったもの。)熊本の園田屋の朝鮮飴。加藤清正が朝鮮出兵の時に日持ちのする食料として持っていったと言われてこの名前があります。餅米と水飴と砂糖の素朴な味です。これを小さく切ってボンタンの果汁を入れたのが鹿児島のボンタンアメです。ちなみに、園田屋の店主は漫画家で、前に買った時はそのイラストが付いていましたが、今回のには無かったです。白い粉は覚醒剤、じゃなくて上質の片栗粉です。素朴でほんのりとした甘さがとても上品です。

Amazon Linux 2023でvsftpdで10.5MiB以上のサイズのファイルがアップロード出来ない。

会社でExmentを動かすため、アマゾンのAWSのEC2という仮想サーバーでAmazon Linux 2023のサーバーを構築しました。(構築しました、と言っても、すぐにターミナルソフトでログイン出来る形で提供されます。)
このサーバー上でvsftpdを動かしてFTPサーバーとしたのですが、何故かクライアントからアップロードした場合、サイズが10.5MiBを超えるファイルは転送が止まりエラーになります。ちなみに私の家のサーバー(AlmaLinux 9)につなぐと問題ありませんので、クライアントや会社のファイヤーウォールの問題ではありません。
色々調べてみたのですが、Amazon Linux 2023自体がまだ公開から半年くらいからのせいか、Web上には情報がありませんでした。

取り敢えず以下の代替案は見つけました。
1.クライアントとしてWinSCPを使う。
2.プロトコルをftpではなくscpにする。
3.https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html?fbclid=IwAR0zkJ-x5x3ZS6xntB9q-vppMKDSGEcMJvpMGM8nDptqs1KtMDRNg2D9Rf より、puttygen.exeをダウンロードする。
4.puttygen.exe を使い、pemファイルからppkファイルを作成し、それをWinSCPの認証の所に設定。

3、4、が必要なのは、EC2のサーバーはログインの時にIDとPW以外にPEMファイルを使います。ところがWinSCPはPutty形式しか受け付けないので、3のツールでPEMからPPKファイルを作る必要があります。WinSCPはAmazonのS3もサポートしているので、持っておいて損は無いと思います。

なお、ファイル数が少なければ、TeraTerm(EC2にはベータ版が必要)でサーバーにつないだ後に、その窓上にファイルをドロップすればアップロード出来ます。この場合もプロトコルはSCPです。

ついでに、これまでCentOS他のLinuxを使っていて、Amazon Linux 2023を初めて使った人が最初にとまどうのは、firewalldが入っていないことです。別にdnfで入れればいいのですが、ポートの開け閉めは別にセキュリティーグループというのを設定してそこでやるのがAWSのec2のスタンダードなやり方になっています。

「帰ってきたウルトラマン」の「夜を蹴ちらせ」

「帰ってきたウルトラマン」の「夜を蹴ちらせ」を観ました。吸血鬼と化した謎の女性の正体は、心臓麻痺で死んだ若い女性で、父親がその姿をそのまま止めておこうとして火葬にせず洞窟の中に安置していたのを、宇宙人に利用されて…という話です。何と言うかあまりにドラキュラ伝説そのままでもう少し捻りが欲しいです。で巨大化した宇宙人が「ドラキュラス」でそのまんま。ウルトラマンは血ならぬエネルギーを吸い取られてほとんど倒れかけますが、万能ブレスレットで強力な光を発し、ドラキュラスが弱った隙に今度はブレスレットを十字架状の槍に変えて、ドラキュラスの胸に突き刺して倒します。再度までドラキュラの設定に寄りかかりすぎです。
次のエピソードはついに最大のトラウマ回で坂田兄とアキがナックル星人に斬殺されます。

トワイライト・ゾーンの”Valley of the Shadow”

トワイライト・ゾーンの”Valley of the Shadow”を観ました。新聞記者のフィリップ・レッドフィールドはある日道に迷い、ガソリンを入れるために偶然ピースフル・ヴァリーという町にたどり着きます。そこで彼が連れていた犬が女の子が操る何かのマシンで消されてしまうという事件が起きます。彼がそれをその女の子の父親に詰め寄ると、その男は犬は裏庭にいると言って、やはり同じようなマシンを操り、彼の犬を出現させます。レッドフィールドは食べ物屋を探してその町のホテルに立ち寄りますが、そのホテルは客は誰もおらず、そこの新聞は1953年の非常に古いものでした。彼は車で町を出ようとしますが、突然車がクラッシュし彼の犬が死んでしまいます。現れた男たちによって彼はその町の町長のところに連れていかれます。それによるとその町は100年ほど前にある星のエイリアンがやって来て、地球の科学レベルをはるかに超えた科学をもたらし、町の人はその科学によって作られたマシンで何でも作ることが出来、あらゆる病気や怪我もそのマシンで治すことが出来ました。町長はこの技術が世界の他の人に知られると戦争に使われるため、この町だけの秘密になっていると言います。秘密を外に出さないため、レッドフィールドは町の住民になるように言われ、家を与えられます。しかしその回りにはフォースフィールドが張り巡らされ、彼は一種の囚人と同じでした。しかしホテルで知り合った女性が彼を好きになり、彼が逃げ出す手伝いをします。レッドフィールドは何でも作れる機械で銃を作り、町長達3人を撃って逃げようとします。しかし彼が盗み出した秘密を書いたノートは白紙でした。結局、彼は罠にはめられて試され、銃を使ったことでやはり暴力のためにこの力を使ったとされ、処刑されます。その処刑とは記憶を消されて町を出て行くことでした…
まあ面白くなくはないですが、30分ものに比べてより面白くなったとは言えないと思います。前も書きましたが、アウター・リミッツ調になってしまったと思います。もちろんアウター・リミッツの方が影響を受けているのでしょうけど。