近年、製薬業界ではデータサイエンスの重要性が急速に高まっており、AIや機械学習を活用した新薬開発の効率化や医療研究の高度化が期待されています。そのような背景のもと、2024年10月末から約1ヶ月間、株式会社SIGNATE(以下、SIGNATE)が主催する「製薬業界データサイエンスチャレンジ2024」が開催されました。本イベントは、日本新薬株式会社の発案と呼びかけをきっかけに、大鵬薬品工業株式会社、Meiji Seika ファルマ株式会社、キッセイ薬品工業株式会社の4社が共同で企画し、企業間の連携を深める機会となりました。イベント概要「製薬業界データサイエンスチャレンジ2024」は、製薬業界におけるデータサイエンスの活用を推進することを目的として開催されました。本イベントは、以下の3つのフェーズで構成され、多様な活動を通じて参加者のスキル向上と企業間の交流を図りました。キックオフイベント(10月31日)初日にはキックオフイベントがオンラインで実施されました。SIGNATEによる開会の挨拶を皮切りに、課題概要の説明やチュートリアルセッションが行われ、初参加者からベテランまで幅広い層が、課題に関する事前知識を深め、参加モチベーションを高める機会となりました。データ分析コンペティション(10月31日~11月28日)今回の課題は、「遺伝子情報に基づき、複数の専門家が遺伝的変異体を『良性』『病原性』『不確か』に分類した結果に不一致があるか否かを予測するモデルを構築する」というものでした。提供された約6万サンプルのデータと45の説明変数を用いて、予測精度(F1スコア)を競いました。期間中、66名が参加し、48チームが成果物を提出。最終的な投稿数は597件に達し、参加者の熱心な取り組みがうかがえました。アフターイベント(12月13日)最終日には、入賞者による解法プレゼンテーションと表彰式が行われました。プレゼンテーションでは、各参加者が高度な分析手法や特徴量設計、外部データの活用に関する知見を共有し、イベント終了後も活発な質疑応答が続きました。入賞者とそのアプローチ上位入賞者の解法には、以下のような多様なアプローチが採用されました。1位モデルの特徴使用モデル:eXtreme Gradient Boosted Trees Classifier(DataRobot)解法概要:特徴量を徹底的に生成し、複数のモデルをアンサンブルして高精度を実現。Pythonを用いた前処理と組み合わせて、複雑なデータ構造を最大限活用しました。2位モデルの特徴使用モデル:LightGBM、XGBoost、CatBoost解法概要:正例・負例のデータセットを工夫し、スタッキング手法で高精度化。欠損値補完や特徴量設計において、高度なテクニックを駆使しました。3位モデルの特徴使用モデル:DataRobot解法概要:専門知識を活かした特徴量設計や外部データの活用。特にがん遺伝子関連データを取り入れ、実務に近い精度向上が図られました。まとめと今後の展望今回の「製薬業界データサイエンスチャレンジ2024」は、製薬業界のDX推進に向けた重要なステップとなり、参加者や企業にとって有意義な学びの機会を提供しました。参加企業の担当者からは、以下のような声が寄せられました。「他社との合同開催により、学びと交流の場が深まったことを大変嬉しく思います。」「競争が刺激となり、データサイエンスへの関心が一層高まりました。」これらの成果は、データサイエンススキルの向上だけでなく、企業間のノウハウ共有や業界全体での協力体制の強化に貢献しています。SIGNATEは、引き続き製薬業界をはじめとする様々な業界でのデータサイエンス活用を支援し、日本全体のDX推進を後押しする取り組みを進めてまいります。企業対抗データ分析コンペティションとは?企業対抗データ分析コンペティションは、複数の企業が共通のデータ分析課題に取り組み、参加者同士がスキルを競い合いながらノウハウを共有する新しい形の「学びのコミュニティ」です。参加者は与えられたデータセットを用いて、機械学習モデルの構築や高度な分析手法を駆使し、課題解決に挑戦します。この取り組みは、企業間の垣根を越えた競争と協力を通じて、データサイエンススキルの向上を図るだけでなく、業界全体の課題解決力やデジタル人材育成を促進するものです。また、参加企業間の交流や最新技術の共有の場としても注目されています。お問い合わせはこちら