Laravelの勉強し直し(2)


Laravelの勉強しなおしも、かなり進みました。
実際にはWebページから検索とその結果表示が出来れば良いので、Web画面からの登録とか編集機能は不要ですが、一応学習しています。
それより欲しいのはオプションを選択して絞り込み検索なのですが、その際に機能1の選択がこれだったら機能2のこのオプションは無し、みたいな制御をどうしようか考えています。前の会社の時に外注に出してやってもらったのはJSONでルールを記述していました。Laravelでも似たような感じになるのではないかとおもいます。
https://zenn.dev/arsaga/articles/ad20f42ed399ed

ヴェーバーの翻訳にChatGPT4は本当に役立ちます。

ヴェーバーのドイツ語の翻訳に、ChatGPT4は本当に役立ちます。というか木村相良の辞書のVerfassungの項の記述に「組織・体制」の意味が書いていないのがおかしいのですが。下記の回答見ても分るように、ChatGPT4はこの「ローマ土地制度史」の全体の内容をきちんと理解しています。現在日本にヴェーバーの研究者は掃いて捨てるほどいますが、「ローマ土地制度史」をこのレベルで読んでいる人は一人もいないと思います。(かつてはいたと思いますが。)

====================================================
User
以下のドイツ語はマックス・ヴェーバーの「ローマ土地制度史」の一部です。この文章でのFlurverfassungはどういう意味でしょうか?つまり耕地に対する法律の意味なのか、それとも耕地に関する記述でしょうか?
Mag die colonia, die »Bauernschaft« — nach Mommsens Ansicht — die verjüngte Projektion der gentilen Flurverfassung sein, so ist sie ausserdem doch auch eine Organisation zur Abwehr dritter in einem befestigten Ort, also einer Stadt.

ChatGPT
この文脈での「Flurverfassung」は、特定の耕地に関する制度や組織の枠組みを指す用語として使われています。ドイツ語で「Flur」は「耕地」「畑地」などの意味があり、「Verfassung」は「憲法」「制度」「組織の枠組み」などの意味を持ちます。したがって、「Flurverfassung」は直訳すると「耕地の制度」または「耕地の組織の枠組み」となり、耕地に対する法的または組織的な枠組み、つまり耕地に関する制度や管理の仕組みを意味しています。
この文章の中でマックス・ヴェーバーは、ローマの土地制度、特に「colonia」や「Bauernschaft(農民社会)」が、古代の「gentilen Flurverfassung(氏族的な耕地制度)」の影響を受けて形成されたものであると述べています。しかし、それに加えて、「colonia」は外部からの防衛を目的とした固定された場所、すなわち都市としての機能も持っていたと指摘しています。
従って、この文脈では「Flurverfassung」は、耕地に関する記述やその管理・運用に関する法的または組織的な枠組みを指していると解釈できます。この用語は、単に法律の意味ではなく、より広い意味で耕地に関する社会的・組織的な制度を含む概念として使用されているようです。

Laravel再学習

会社のHPに製品検索機能を付け加えようと思って、PHP/Laravelを勉強しなおしています。Laravelについては2019年~2020年頃、Udemyというオンライン学習で2つのプログラムを受講して一通り勉強しています。ただその頃のバージョンは5.6くらいで現在最新バージョンは10なので、最新版の理解と復習を兼ねて入門書をやり直しています。画面は書籍データベースの一覧を表示させたもの。

雪害、停電

済みません、ここのサーバーが15時間ぐらいダウンしていました。停電です。昨晩の10:30から復帰は何時頃か正確には不明ですが今日(2月6日)の昼過ぎです。午後半休を取って帰宅してサーバーを再度起動したのが15時頃です。
その前に昨晩は帰宅出来ませんでした。中央本線が高尾から甲府間が夕方16時過ぎから運休になり、復帰もいつになるか分らないという状態で、昨晩は横浜のホテルに泊まりました。結局復帰したのがこちらも6日の12時過ぎです。
帰って自宅駐車スペースの雪かきをしたのですが、これが重い!なるほどこれなら木が倒れたり架線が切れたりするのは分ります。大雪警報は出ていましたが、またいつものおおげさな予報かと思っていましたが、今回は見事にはまりました。

Facebookの友達リクエストからのメッセージ詐欺

私は通常Facebookの友達リクエストは知らない人からのは受けないのですが、オーストラリアに住む74歳の日本人のおばあさんからリクエストが来て、そのページを見たら写真もあって確かにその年齢相応だったので、半信半疑ながらOKしました。
そうしたら何度かメッセージが来て、「私はメルボルンの○○がんセンターに入院していて、後数週間程度の命。配偶者は事故で死亡した。日本の宮城県出身。日本に戻りたい。」といった内容でした。その○○がんセンターは調べたら実在したので、少しは信じる気になって、またもし本当だったら可哀想なのでしばらく相手をしていました。そうしたら結局下記のメッセージが来て、典型的な詐欺だということがはっきりしました。即刻ブロックし、Facebookに詐欺として報告しました。調べてみたら、元は2008年くらいのアメリカであったメール詐欺で結構な数の人が騙されていました。
皆様も気をつけましょう。とにかく人の良心につけ込む詐欺は最悪です

=====================================================
こんばんは、私の最愛の兄弟!
愛とサポートに感謝します。
8億円くらい持ってます。 亡くなった夫から受け継いだもので、
私はこのお金を日本の貧しい人々や無力な子供たちを助けるなどの慈善活動に費やすことに非常に誠実です。 このお金を慈善活動に使っていただけると幸いです。 これが私が地球上で行う最後の善行の一つであってほしいと思っています。 私が死ぬ前に。 これを受け取るのを手伝ってください。 お金。 日本での慈善活動に役立ててください。
亡くなった夫はこのお金を私の名前で警備会社に預けていました。 委託箱を保管しているセキュリティ配送会社はオーストラリアのメルボルンにあります。
そして、あなたが彼らの指示に従うことができれば、彼らは喜んでお金の入った箱を玄関まで安全に届けてくれるでしょう。
運送会社から私の箱を受け取るのを手伝ってください、そしてそのお金を日本での日本の慈善活動に使うのを手伝ってください。 また、箱が届けられたら、箱の中のお金の 20% が私の最後の願いを叶えるためのあなたの取り分となります。 お願いします。 助けてもらえますか🙏🙏

下関市でサテライトオフィス?

昨日の幕張メッセのIT系の展示会で山口県のブースがあって、そこで配布されていたもの。見た瞬間思わず吹いてしまいました。だって、下関市って坂ばかりで平地が少なく、サテライトオフィスにする土地が余っている筈ないですから。説明員の話によると、下関駅前に新しいビルが出来るということでした。それからパンフレットの中には地震が少ない、と書いてありました。確かに大きな地震は今まであまり来たことがないですが、しかし神戸も熊本もそう言われていて被災したのであり、そういう所は建築基準が緩くてむしろ危険だと思うのですが。まあ魚が美味しいというのはその通りですけど。

ITの展示会@幕張メッセ

幕張メッセでやっている何が正式名称なのか良く分からないITの展示会に行って来ました。お目当てはもちろん生成AI関係ですが、正直小粒なコバンザメ型の製品・サービスばかりでウンザリしました。GAFAとの差は開くばかりで、太平洋戦争の時、米軍がブルドーザーで一晩で滑走路を作っているのに、日本軍がツルハシとモッコで一月かかっていた状況と似ています。ちなみにジャストシステムも出展していたので生成AI関係の何かを開発しているか聞いてみましたが、やっていないとのことでした。

立花和夫著の「入門タグチメソッド」

立花和夫著の「入門タグチメソッド」を何とか読了。一部飛ばした所もあります。マハラノビス距離とかに言及している割りには、タグチメソッドについて、これまで2回くらい理解しようとチャレンジして挫折していますが、3回目でようやく触りくらいは理解しました。実験計画法はQC検定だと2級、タグチメソッド(ロバストパラメータ設計)は1級の出題範囲であり、はっきり言って難しいです。前の会社で、部下の20代の若手社員に4日間のタグチメソッドの研修に行かせたことがありますが、その若手も落ちこぼれていました。
この本は数式だけではなくて、具体例が豊富で、特に安定化電源回路を使っての、S/N比と感度の説明は分かりやすかったです。つまり10Vの直流電圧を出すことをゴールとして、それに対してばらつきを与える各抵抗の公差や使用温度条件などのノイズ要因の影響を最小にするパラメーターの組み合わせを求め、それが出来てから今度は目的の10Vに持っていく、という2段階の設計がタグチメソッドの本質のようです。その過程で、直交表というある要素と別の要素の組み合わせの実験で、何通りに値を振ればいいのかを教えてくれる表を用いて実験し、その結果を使ってパラメーターの組み合わせを絞って行く、ということのようです。
この本はマハラノビス距離についての解説もあり、ユークリッド距離とどう違うのかということも良く分りました。要は要素間に相関がある場合にその相関を考慮したのがマハラノビス距離であり、それによってあるデータが基準空間の平均に近いデータなのか外れたデータかを判別するのがマハラノビス距離だということです。2つの要素に相関が無い場合は、X、Y軸にそれぞれの要素を取ると、各データの分布は円形に近くなります。しかし2つの要素に相関があれば、円形が楕円になり、原点からのユークリッド距離が同じだったデータも、マハラノビス距離では差が出てくるということになります。

トークンと形態素

また生成AIネタです。
生成AIのLLM(大規模言語モデル)の中では、昔形態素と呼ばれたもの(形態素解析という意味で)がトークンと呼ばれているようです。
下記のページによればどちらも同じ意味とされています。
しかし、雑誌Interfaceの2023年11月号(「ChatGPTとプログラミング」特集)の解説によれば、英語だったらまず一文字一文字がトークンになり、それをいわゆる最長一致法的にn-gramで伸ばしていって、既に持っている語彙に一致すればそれをトークンとするという形で、ある文章のトークンへの分解が行われているようです。なので、形態素があくまで文法的な意味での文を分割する最小単位とすれば、トークンはもっと処理上の仮想的な分割単位という気がします。面白いのは生成AIのエンジンによってこの切り方が違うということで、Interfaceに載っていた例ではGPT-3.5は「処理される」を「処理/される」と切っていますが、GPT-4は「処/理/され/る」とより細かく切っています。「処理」を2つに分けて何がいいのか良くわかりませんが、「処分」とか「処置」とかの意味上の類似性のチェックとかがされているのでしょうか。
それから同じ雑誌に、デカルトが座標軸を発明して以来の、生成AIの元になっている理論の解説がありましたが、その中にはマハラノビス距離のことは一言も解説されていません。先日GPT-4にEmbeddingとマハラノビス距離の関係を聞いた回答のように、Embeddingにおけるマハラノビス距離は非常に重要な手法ですが、何故かそれを指摘している人を私はこれまで発見出来ていません。Interfaceの解説記事も本当に深い所まで分析したんじゃなくて、海外の英語等での解説記事をとりあえず集めてまとめただけという気がします。

P.S.
ずばり、ChatGTP-4に聞いてみたら、形態素とトークンは違う概念ですという回答でした。

=================================================================

 
User
生成AIでは文書を解析する最小単位としてトークンという概念が使われていますが、これは従来からある「形態素」(形態素解析)と同じですか、それとも別の概念ですか?
 
ChatGPT
「トークン」と「形態素」は似たような概念に思えるかもしれませんが、実際には異なる概念です。それぞれの違いを説明します。
 
形態素:
形態素とは、言語学の用語で、意味を持つ最小の単位です。日本語の場合、言葉を意味を持つ最小単位に分解したものを指します。例えば、言葉「食べる」は「食べ」+「る」の2つの形態素から成り立っています。
形態素解析とは、文を形態素に分解することを目的とした解析のことです。
 
トークン:
トークンは、テキストを処理する際の分割単位のことを指します。トークンは必ずしも意味を持つ最小の単位とは限らず、空白や句読点によってテキストを分割した単位を指すこともあります。
例えば、英語の文 “I love AI.” をトークン化すると、[“I”, “love”, “AI”, “.”] のようになります。
特に、多くのNLPモデルやシステムでは、特定のトークナイザーを使用してテキストをトークン化します。
形態素解析は、特に日本語などの複雑な言語を処理する際に有用な手法です。一方、トークンはテキスト処理全般において基本的な単位として使用されます。
OpenAIのモデル(例: GPT-4)では、多言語のテキストを処理するためのサブワードトークン化(一部の言語では形態素に近い単位になることもある)を用いています。このサブワードトークン化は、形態素解析とは異なるアプローチで、データから最適な分割単位を学習します。

教養としてのデータサイエンス

最近、データサイエンティストの養成が急務!とかいった論をよく見るので、データサイエンスに関する入門書を読んでみました。しかし悪い意味で予想が当たり、流行のIT用語を浅く広く紹介し、それに若干の統計学の初歩を付け加えただけの本でした。例えば実験計画法は注で2行の説明だけ。マハラノビス距離についてはまったく出て来ません。私には先日のDatabricksのセミナーでの大企業でのビッグデータとの格闘の例の方がはるかに参考になりました。

また、こんなの読むくらいだったら昔の数理統計学の本を読んだ方がよっぽどマシだとも思いました。写真は元々亡父(元高専の数学教師)の本で、私が情報処理技術者試験の一種を受ける時に、待ち行列などの参考書として持ち出したものです。1950年代後半から1960年代にかけての本です。