カシカ blog

カシカ blog

3Dの力であらゆるものを可視化する、株式会社カシカのコーポレートブログです。

次世代3D生成AI「Rodin Gen-2」その進化と可能性

Sep 29, 2025
POSTS

こんにちは、エンジニアの村本です。本記事では、Rodin Gen-2の技術的進化についてご紹介します。次世代3D生成AI「Rodin Gen-2」その進化と可能性 3D制作は、これまで専門的な知識と膨大な時間を必要とする分野でした。しかしAIの進化により状況は一変しつつあります。特にDeemos Tech（ディーモス・テック）が開発した最新の3D生成AI「Rodin Gen-2」は、これまでのツールとは一線を画す存在です。 Rodinとは？ AIによる3D生成エンジン「Rodin」は、Deemos Tech（ディーモス・テック）が開発したテキストや画像から直接3Dモデルを生成することに特化した生成AIモデルです。同社が運営する Hyper3D プラットフォームを通して提供されています。対応する入力 Text to 3D：テキストプロンプトからアイテムやキャラクターの3Dモデルを作成例：「wooden chair with cushions」と入力すると椅子の3Dモデルが生成される Image to 3D：1枚の写真やイラストから立体的な3Dメッシュを生成例：ぬいぐるみの写真 → 3Dプリント可能なモデル出力形式 GLB, OBJ, STL, FBX など、ゲーム・AR/VR・3Dプリントなどに利用できる形式でエクスポート可能。技術的特徴ディフュージョンモデルをベースにした生成AI 生成後に「リメッシュ」「AIテクスチャリング」「最適化」などを自動で実行フォトリアル寄りからスタイライズ寄りまで幅広く対応他の3D生成AIとの比較サービス / モデル入力方法出力の特徴強み弱み Rodin (Hyper3D.ai) テキスト・画像 GLB / OBJ / FBX / STL など汎用3D形式画像からの3D化が簡単

glTFフォーマット完全ガイド: 3Dモデル配信の新しい標準

Aug 18, 2025
POSTS

こんにちは、カシカの奥です。今回は、3Dコンテンツ配信における新しい業界標準として注目されている glTF（GL Transmission Format について詳しく解説します。WebGLを使った3Dアプリケーション開発や、AR/VRコンテンツ制作において、glTFの理解は必須となっています。目次 glTFとは glTFの特徴ファイル構造 JSONメタデータバイナリデータテクスチャファイル glTF 2.0の改良点実装例 Three.js での読み込み Babylon.js での読み込み拡張機能（Extensions）さらに高度な物理ベースレンダリングパラメータの対応物理エンジンへの対応 3D Gaussian Splatsとの統合まとめ glTFとは glTF（GL Transmission Format）は、Khronos Groupによって開発された3Dシーンとモデルの伝送フォーマットです。「3DのJPEG」とも呼ばれ、効率的な3Dコンテンツの配信を目的として設計されています。 2015年にバージョン1.0がリリースされ、現在はglTF 2.0が標準として広く採用されています。主な設計目標コンパクトなファイルサイズ: ネットワーク転送に最適化高速な読み込み: 最小限の処理でGPUに送信可能相互運用性: 異なるプラットフォーム間での一貫した表示拡張性: 新機能を追加できる柔軟な仕組み glTFの特徴 1. 効率的なデータ構造 glTFは、従来のFBXやOBJといったフォーマットと比較して、以下の点で優位性を持ちます：ファイルサイズの削減： FBXフォーマットは独自のバイナリ形式で、メタデータが冗長になりがち OBJフォーマットは可読性は高いが、同じデータが重複して記述されることが多い glTFは階層的な参照システムにより重複データを排除し、同じメッシュを複数の場所で使用する場合でもデータは一度だけ保存読み込み速度の向上：従来フォーマットでは読み込み後にGPU用フォーマットへの変換処理が必要 glTFは頂点データがGPUバッファに直接コピー可能な形式で格納され、CPU処理時間を大幅に短縮メモリ効率：頂点データが配列形式で連続的に格納され、メモリ断片化を回避

実物を仮想世界へ: カタチスペース x Roblox

Aug 5, 2025
POSTS

こんにちは、エンジニアの有吉です。今回は、弊社サービスであるカタチスペースと、今やすっかり子供たち間で定番の遊び場となったロブロックスを組み合わせれば、現実世界の物品を簡単に仮想空間に表示できる、という技術デモをご紹介します。目次ロブロックスとはカタチスペースとはセットアップ Roblox Studio のチュートリアル Roblox Studio のスクリプト Lua を動かしてみるモデルのインポートカタチスペース側の準備 Roblox × カタチスペース結びロブロックスとはロブロックスは、今や世界中の子どもや若者にとって「遊ぶ場所」であり「作る場所」でもあるオンラインプラットフォームです。ユーザーは自分でアバターを作り、他のユーザーが作ったワールド（ゲーム空間）を訪れたり、自分自身でオリジナルの体験を公開することもできます。 2020年代以降、特に10代を中心に急速にユーザー数が増え、日本でも小学生〜中高生の間で話題になる機会が増えてきました。ゲームとして遊ぶだけでなく、アバターを着せ替えて友達と交流したり、写真を撮って共有したりと、SNS的な要素も含む使われ方が広がりつつあります。カタチスペースとはカタチスペースは、現実の物品をそのまま3D・ARで再現できるサービスです。たとえば「このソファはオフィスに収まるだろうか？」「この家電はキッチンに置ける？」といった不安を、説明書や写真ではなく、目の前に置いたかのような体験で解消することができます。ユーザーは、スマートフォンなどを使って商品の3Dモデルをその場に表示し、サイズ感や質感を直感的に確認可能。企業にとっては、ARを通じて購入前の確信を高める新しい接客手段として活用できます。カタチスペースを活用し、３次元空間のロブロックスに商品を配置することができます。セットアップ実際にやってみます。まずは環境を整えます。カタチスペースを App Store からインストールします（iOS環境）。ロブロックスの開発環境である Roblox Studio をインストールします。こちらはアカウント登録が必要です。 Roblox Studio のチュートリアルインストールして起動するとチュートリアルの案内があり、承諾すると簡単なチュートリアル用のシーンが作成されました。内容は、3D オブジェクトの配置方法、移動、回転、拡大縮小、といったお馴染みのもの。筆者は Unity を常用していることもあり、すんなり理解できました。 Unity でいうところの Hierarchy はエクスプローラーで、シーン上のオブジェクトはすべてここから参照できるようですエクスプローラーの下部にはプロパティウィンドウがあり、こちらは、Unity の Inspector に対応するものとなっています試しにスケールを変更してみましたモデルの用意さえできれば、ゲーム内に表示できそうです。 Roblox Studio のスクリプト Roblox では、ゲーム内のインタラクションやロジックを記述するために Lua（ルア）という軽量スクリプト言語が使われています。 lua は Unity にも組み込み可能なので、使ったことのある Unity エンジニアの方もいらっしゃるのではないでしょうか。

AIにブラウザを使わせる　～MCP接続方法とブラウザ情報の受け渡し～

Jul 28, 2025
POSTS

目次こんにちは、エンジニアの池田です。この記事では、以下の内容を紹介します。 MCPとは？ MCPの仕組み今回導入するMCP 導入方法使用例：会社近くにある飲み屋の場所を調べてみよう結果まとめ 1. MCPとは？ Anthropicとの関係 MCP（Model Context Protocol）は、Anthropicが開発したAIモデルと外部システムを接続するためのプロトコル(とりきめ)です。Claude CodeやClaude Desktopなど、Anthropicの製品で積極的に活用されています。 MCPを使用することで、AIが単体では実現できない機能（ファイル操作、Web検索、データベースアクセスなど）を、外部ツールとの連携により実現できるようになります。 MCPの種類 MCPには大きく分けて以下の種類があります：ファイルシステム型: ローカルファイルの読み書きや検索 Web型: ブラウザ操作やWeb検索データベース型: SQLiteやPostgreSQLなどとの連携 API型: 外部サービスのAPI呼び出しシステム型: コマンド実行やシステム情報取得 2. MCPの仕組み前の章ではMCPにいくつかの種類があることを紹介しましたが、ここではもう少し技術的に踏み込んで、MCPがどのような仕組みで動作するのかを解説します。プロトコルとしてのMCP まず重要な点として、MCPは「Model Context Protocol」の略であり、その名の通りプロトコル（通信上の取り決め）です。特定のプログラムやツールそのものを指す言葉ではありません。 AIツール（今回でいえばClaude Desktop）と、外部機能を提供するプログラム（MCPサーバー）が連携する際に、「このような形式でリクエストを送り、このような形式でレスポンスを返しましょう」というルールを定めたものがMCPです。具体的にどのような文字列がMCPの内部で使われるのかはこちらのサイトから確認できます。典型的な命令としては、以下のような内容をやり取りしています。 { jsonrpc: "2.0"; id: string | number; method: string; params?: { [key: string]: unknown; }; } ただし、基本的にはクライアントもサーバも実装にはSDKを使うため、この文字列を直接扱うことは少ないかと思います。 SDKはGitHub上で公開されており、PythonやC#をはじめ、様々な方式で自作のMCPサーバを開発できます。ただし、言語によって開発状況はまちまちで、C#では標準出力経由でやりとりするか、Httpサーバ経由でやり取りするしか選択肢はありません。 MCPサーバの立ち位置も、基本的にはAIツールと操作対象のツールの間に小型のMCPサーバを立て、標準出力にJson-RPCのみ出力して動作するのが一般的な実装方法の様です。

【論文紹介】Explainable AI – the Latest Advancements and New Trends

Jul 8, 2025
POSTS

こんにちは、エンジニアの村本です。 AI技術の社会実装が進む中で、「なぜその判断をしたのか」を説明できないブラックボックス問題が課題となっています。本記事では、次に紹介する論文を元に、説明可能AI（XAI）の最新研究動向を解説します。紹介する論文： Explainable AI – the Latest Advancements and New Trends 目次 1. 説明可能AIが注目される背景 2. 各国の規制動向と倫理的枠組み 3. 技術的アプローチの最新研究 4. 実用化への取り組みと課題 5. ビジネス活用の展望 6. まとめ 7. おわりに 1. 説明可能AIが注目される背景 Trustworthy AIへの関心の高まり 2019年以降、AIの堅牢性・解釈可能性・プライバシー保護に関する研究が活発化しています。AIの産業応用が進むにつれ、人間中心の要素を取り入れた技術が増加し、倫理的・透明性・安全性への懸念が浮上しています。技術的背景： 2019年前後は、深層学習技術の産業応用が本格化した時期と重なります。特に、BERT（2018年）やGPT-2（2019年）などの大規模言語モデルの登場により、AIの性能は飛躍的に向上しましたが、同時にモデルの複雑性も急激に増大しました。これらの高性能なAIモデルは、従来の機械学習手法と比べて桁違いのパラメータ数を持ち、その判断プロセスの理解が困難になったことが、説明可能性への関心を高める大きな要因となりました。社会的背景：同時期に、AIによる差別的判断や誤った意思決定が社会問題として顕在化しました。2018年のAmazonの採用AIにおける性別バイアス問題や、顔認識技術の人種差別問題など、AIの判断が社会に与える影響の深刻さが広く認識されるようになりました。これらの事例は、高性能なAIであっても、その判断根拠が不明確では社会実装において大きなリスクとなることを示しています。 IEEEなどの標準化団体が、倫理認証プログラム（ECPAIS）などの枠組みを導入し、特にAIの解釈可能性が課題となっています。 DARPAのXAIプログラム米国のDARPAがExplainable AI（XAI）プログラムを開始し、人間が理解しやすいAIの開発を推進しています。従来の解釈可能AIの限界従来の解釈可能AI（Interpretable AI）には以下の課題がありました：性能との両立困難：解釈しやすいモデルは精度が低下する傾向コスト増大：説明のためにモデルを簡略化する必要複雑な問題への対応限界：実際のビジネス課題には不十分説明可能AI（XAI）は、高性能なモデルに後付けで説明機能を追加するアプローチにより、これらの課題解決を目指しています。 2. 各国の規制動向と倫理的枠組み EU主導の信頼性基準参考：European Commission: Ethics guidelines for trustworthy AI (2019) EU AI高水準専門家グループ（AI HLEG）による信頼できるAIの枠組みは、以下の3つの構成要素から成り立っています：

Gemini CLI を早速試してみた

Jun 30, 2025
POSTS

目次こんにちは、エンジニアの有吉です。 6/25に Google 社から Geminiを活用するオープンソースの AI エージェント「Gemini CLI」のプレビュー版がリリースされました。本記事はそれを早速使ってみたレビューとなります。 Gemini CLI とは事前に準備が必要なもの導入手順動かしてみる終わりに 1. Gemini CLI とは Google が開発した AI モデルの CLI ツール Windows で簡単に扱えるのがポイント公式ドキュメント 2. 事前に準備が必要なもの Node.js が必要筆者の環境にはインストール済みだったため、 Node.js をインストールしていない環境で導入を進めるとどうういうことが起こるかは確認できませんでした 3. 導入手順 PowerShell でコマンドを実行するのですが。二種類の手段が用意されています。ひとつは npx https://github.com/google-gemini/gemini-cli もうひとつは npm install -g @google/gemini-cli です。両者の違いを以下に示します。実行するコマンド特徴 npx https://github.

今からでも遅くない！AIで爆速自動コーディング

Jun 24, 2025
POSTS

目次こんにちは、エンジニアの池田です。この記事では、以下の内容を紹介します。 AIコーディングとは？本記事で対象とする環境昨今のAIコーディング動向 Windows上でClaude Codeを使うということ Claude Code導入手順 Claude Codeを使ってみるまとめ 1. AIコーディングとは？ AIコーディングという言葉には、明確な定義があるわけではありません。本記事では、近年のAI開発競争の中で登場したプログラミングに特化したAIと、人間が協調してコードを書くことをAIコーディングとよぶことにします。 2. 本記事で対象とする環境筆者はWindowsユーザーであるため、ツールの導入方法や操作手順などはすべてWindowsを前提に解説します。近年のAIツールの多くはLinuxやMacOSとの親和性が高く、Windows対応が後回しになることも多いため、Windows環境での情報はまだまだ貴重です。 YouTubeやブログでもWindows向けの情報は少なめなので、WindowsでAIコーディングを始めたいという方はぜひ本記事を参考にしてください。 3. 昨今のAIコーディング動向最近のAIコーディングを、以下の4つに分類して紹介します。ブラウザ完結型 API接続型エディタ型 MCP型ブラウザ完結型ローカル環境の設定が不要でOSを問わずすぐに試せる基本的にすべての処理がサーバ側で動作するためローカル環境はスマホでもOK 定額制のサービスが多く使いすぎを意識せずに利用可能例：ChatGPT Codex、Claude Code GitHub Actions ChatGPT Codex等が最近ではコンテナを用いた自動ビルドに対応しており、ビルドエラーを検出して修正まで試みるといった機能も登場しています。ただし、高性能な機能を使用するには、有料プラン（例：ChatGPT Pro等）に加入する必要があるため、誰でも気軽に使える、という段階にはまだ達していません。人間はスマホだけ見て、あとはすべてAIが自動対応というシナリオではこの用途が主流になりそうな印象です。 API接続型エディタ上でAIによるリアルタイム編集が可能 Visual Studio Codeのような既存の開発環境に統合して使用することができるため、試用しやすい APIを使用する方式のため、かかる料金は使った分だけ ※Claude Codeは複数の料金体系から選択可能エディタ拡張型の場合、基本的にはAPIアクセスキーを初回に入力して、これを通じてAIによる分析やコーディングを提供します。拡張機能部分はエディタが開いているファイルや、選択状態をAIに提供します。エディタ拡張型例：Cline、Cody、Copilot シェル型は現在Claude Code一択になります。Claude Codeは薄いエディタ拡張機能とシェルの組み合わせで動作します。月額プランを契約している場合はAPI接続ではなく、月額プランの方で使用することも可能です。シェル型例：Claude Code API料金は従量制が一般的なため、大規模なコードの改修など使用量が増えるとコストも増加します。導入の際はあらかじめ予算を決めておくと安心です。エディタ型エディタに統合されたAIの強力な開発サポート単にAPIをたたくだけでなく、途中で検索などAPI接続以外のAI作業を行うことが可能最新情報の反映など情報を広く使用した開発ができる例：Cursor、Windsurf

すごく簡単なDeepSeek R1のローカル実行方法【2025年2月版】

Feb 5, 2025
POSTS

はじめに近年、AIの発展は目覚ましく、2025年初頭の現在では一般のPCでもChatGPTのようなAIが動く状況になりつつあります。周辺技術も徐々に複雑化しており、プログラム自動開発のCline、ノードベース画像生成UIのComfyなど、次世代のスタンダードとして有力なアプリケーションが出てきています。この記事では、話題になっているDeepSeekの日本語版をローカルPCで動かすための背景知識やツールを紹介し、具体的に導入する手順をご紹介します。目次はじめに目次最近のAI環境前提使うツール・サイト Hugging Face：AIモデルの共有プラットフォーム Ollama：AIモデルの実行用プログラム OpenWeb UI：ブラウザからメッセージを入力できるようにするUIツール試してみよう Ollamaのインストール LLMモデルダウンロードコマンドの取得 Ollama経由でダウンロード【途中確認】Ollama上での実行 OpenWeb UIのインストール OpenWeb UIの実行【動作確認】OpenWeb UIからチャット精度についてまとめ最近のAI環境ここ数年AI関連の競争が激しい状況が続いていますが、特に2024年末～2025年初頭の現在、さらにその傾向が強くなっています。以下は2024年末～2025年の話題をまとめたものです。発表日企業モデル名主な特徴・内容 2024/12/17 OpenAI o1 専門的な内容に強いモデルリンク 2024/12/26 DeepSeek V3 オープンソース、OpenAI互換APIを特徴とする安価なモデルリンク 2025/01/20 DeepSeek R1 OpenAI o1級の性能とされるオープンソースモデルリンク 2025/01/23 OpenAI Operator ブラウザ操作が可能なエージェントリンク 2025/01/31 OpenAI o3-mini 小規模ながら高性能な推論を可能とするモデルリンク 2025/02/02 OpenAI Deep Research アナリスト等の利用を想定した情報収集、資料化ツールリンク特に中国の企業DeepSeekのオープンソースモデル発表は米国精密機械産業の株価やAI関連企業にも影響を与えており、より一層競争が激しくなることが予想されます。

ChatGPTの画像認識を使って画像管理を効率化しよう

Nov 2, 2024
POSTS

はじめに画像認識や物体検出の研究開発において、大量の動画、画像データを効率的に管理し、必要なシーンを素早く検索できる環境の構築は重要な課題となっています。従来の方法では、人間が一つ一つの動画を確認し、メタデータを付与する必要がありました。この作業は膨大な時間と労力を要し、プロジェクトの大きなボトルネックとなっていました。例えば：自動運転の開発には、様々な道路状況の映像データセキュリティシステムには、異常検知のための監視映像製造ラインの品質管理には、製品検査の画像データこれらのデータを効率的に管理し、必要なシーンを素早く取り出せる環境がなければ、開発のスピードは大きく低下してしまいます。本記事では、最新のChatGPTを活用して、この課題を解決する具体的な方法を解説します。動画データの自動解析から、検索可能なデータベースの構築まで、実装に必要な要素を詳しく見ていきましょう。目次はじめに実装手順おすすめのツールとライブラリ実装の際の注意点結論実装手順以下がChatGPTを使った画像データベース構築のパイプラインです。 1. 動画のフレーム分割まず、動画をフレーム画像に分割します。以下はPythonとOpenCVを使用した実装例です： import cv2 import os def extract_frames(video_path, output_dir, interval=30): """ 動画からフレームを抽出する Parameters: video_path (str): 入力動画のパス output_dir (str): 出力先ディレクトリ interval (int): フレーム抽出間隔 """ if not os.path.exists(output_dir): os.makedirs(output_dir) video = cv2.VideoCapture(video_path) frame_count = 0 while True: success, frame = video.read() if not success: break if frame_count % interval == 0: frame_path = os.

技術ドキュメント作成のChatGPT活用法6選

Nov 1, 2024
POSTS

はじめに「ドキュメントを書く時間があったら、コードを書きたい」多くの開発者の方に共感していただけるのではないでしょうか。とはいえソフトウェア開発プロジェクトにおいて、技術ドキュメントの作成は避けて通れない重要なタスクです。実際、業界の調査によると、開発者は作業時間の15-20%をドキュメント作成に費やしているとされています。コードを直接記述したエンジニアが作成する必要があるドキュメントも多く、この作業負荷は決して無視できないものです。もしこの作業時間を数時間単位で削減できたら？本記事では、ChatGPTなどのAIを活用して、技術ドキュメント作成を効率化する具体的な方法を紹介します。適切なプロンプトと組み合わせることで、ドキュメント作成の時間を大幅に削減し、より本質的な開発作業に時間を割くことができるようになります。場合によってはエンジニア本人ではなく、アシスタントさんなどに作業を割り振ることもできるでしょう。今回は特に効果の高い6つの活用法を厳選してご紹介します。これらの手法を組み合わせることで、プロジェクト全体で数十時間規模の工数削減も決して夢ではありません。ぜひ最後までお付き合いください。目次機能・関数の説明生成手順実際の出力例ディレクトリ構成の記述手順実際の生成例シーケンス図の自動生成手順生成例と実際の図 APIドキュメントの自動生成手順 Swagger UI活用データベース設計書の生成手順テーブル説明と設計図の生成エラーハンドリングドキュメントの作成手順出力例まとめメリット注意点 1. 機能・関数の説明生成開発者にとって最も時間がかかる作業の一つが、個々の関数やメソッドの詳細な説明を書くことです。AIを使用することで、この作業を大幅に効率化できます。具体的な手順：対象のコードをChatGPTに入力します（なお機密保持の観点で、有料版のPlaygroundを使うか、API経由でのご利用を推奨します）以下のようなプロンプトを入力：以下のコードを関数ごとに説明してください。説明は以下の例のようなフォーマットで記述すること。例）関数名：fetchData スクロールを監視し、ページ下部付近でさらにデータをフェッチします {あなたのコード} 試しに筆者の開発したコードを読み込ませてみると、以下のようなレスポンスが返ってきます。このような機能一覧をわずか数秒で作成することができます。 `initializeApp` 初期化された設定に基づいてアプリを初期化し、セットアップ。データをフェッチします。 `initializeSAMPLE` アプリを初期化し、ログインユーザーのプロフィールを取得。未ログイン時は警告を表示します。 `handleScroll` スクロール位置を監視し、ページ下部付近で追加のデータをフェッチして表示を更新します。 `fetchMore` 現在の状態を確認しながら、追加のデータを非同期でサーバから取得します。 `renderTabs` タブクリックイベントを登録し、選択されたタブに応じてデータのレンダリングやクリップボードを更新します。 `renderStatistics` ユーザーの統計データを表示し、時間別に分けて表示します。このアプローチによって、時間の大幅な節約ができるとともに、一貫性のある説明フォーマットを持つことができ、読み手にとっても利便性の高い機能一覧を作成することができます。